バイトダンスのSeedチームは、最新の研究成果である「Seed LiveInterpret2.0」エンドツーエンド同時通訳大規模モデルを正式に公開しました。このモデルのリリースは、機械による同時通訳技術において重要な突破を意味し、翻訳の正確性が専門の同時通訳者とほぼ同じレベルに達し、遅延時間が非常に短く、わずか3秒で、さらにリアルな音声復刻機能を備えており、話者の声色で翻訳後の音声を出力することができ、言語間コミュニケーションの自然さと滑らかさを大幅に向上させました。

同時通訳は、翻訳分野における頂点と見なされており、極めて短時間で言語の変換を行う必要があり、聞くことと話すことの両方を同時にこなす必要があります。そのため、翻訳技術研究者にとって非常に困難な課題でした。Seed LiveInterpret2.0の登場により、中英同時通訳の品質が業界トップレベル(SOTA)に達し、極めて低い音声遅延を実現し、同時通訳分野に新たな技術的基準を提示しました。

Seed LiveInterpret2.0は、全双工エンドツーエンド音声生成理解フレームワークに基づいており、中英相互翻訳をサポートし、複数人の音声入力をリアルタイムで処理できます。人間の同時通訳者のように、非常に低い遅延で「聞くことと話すこと」を同時に実行し、ソース言語の音声入力を受信しながら、直接ターゲット言語の翻訳音声を出力します。また、ゼロサンプル音声復刻機能を備えています。事前に音声サンプルを収集する必要がなく、リアルタイムでの対話だけで「本物の声」の音声翻訳を合成できるため、コミュニケーションがよりスムーズで自然になります。

微信截图_20250724134449.png

テストでは、Seed LiveInterpret2.0が持つ強力な能力が示されました。40秒に及ぶ長い中国語の表現に対して、このモデルは低遅延で同様の音色を持つ英語の翻訳をスムーズに出力できます。それだけでなく、音声の学習速度も速く、『西遊記』の猪八戒や『紅楼夢』の林黛玉のようなキャラクターでも、これまで一度もその声を聞いていない場合でも、リアルタイムでのインタラクションを通じて現場で再現可能です。

従来の機械同時通訳システムと比較して、Seed LiveInterpret2.0は多くの面で顕著な優位性を示しています。まず、ほぼ人間の同時通訳者のような翻訳の正確性を持ち、正確な音声理解能力によって翻訳の正確性を保証しています。多人数の会議などの複雑な状況における中英双向翻訳の正確率は70%以上、単一のスピーチの翻訳正確率は80%以上で、専門的な人間の同時通訳に近い水準です。次に、極めて低い遅延を持つ「聞くことと話すこと」の能力は、全双工音声理解生成フレームワークを採用しており、翻訳遅延は2〜3秒にまで低下し、従来の機械同時通訳システムよりも60%以上短縮され、本当に「聞くことと話すこと」の翻訳を実現しています。さらに、ゼロサンプル音声復刻機能により、話者の声質をリアルタイムで「外国語で話す」ことができます。これにより、コミュニケーションの没入感と親しみやすさが向上します。最後に、このモデルは翻訳品質、遅延、音声出力のリズムをスマートにバランス調整でき、音声の明瞭度、滑らかさ、複雑さに応じて出力リズムを調整し、異なる言語特性に適応します。長すぎる情報に対しても、通訳音声のリズムが自然で滑らかであることを保証します。

専門の人工評価において、Seed LiveInterpret2.0の性能は特に突出しています。評価はRealSIデータセットに基づいており、これは中英双方に10分野ずつ含まれるオープンなテストセットです。人工評価チームは、伝えられた有効情報の割合(Valid Information Proportion)を指標として、中英方向でSeed LiveInterpret2.0を含むいくつかの業界で有名な同時通訳システムをテストしました。評価結果によると、音声からテキストへの同時通訳タスクにおいて、Seed LiveInterpret2.0の平均翻訳品質のヒューマンスコアは74.8(満点100点、翻訳の正確性を評価)であり、第2位のベースシステム(47.3点)よりも58%高いことが確認されました。音声から音声への中英同時通訳タスクにおいては、3つの評価システムのみがこの機能をサポートしており、その中でSeed LiveInterpret2.0の平均翻訳品質は66.3点(満点100点、翻訳の正確性だけでなく、音声出力の遅延、語速、発音、滑らかさなどの指標も評価)で、他のベースシステムを大きく上回り、専門的な人間の同時通訳に近い水準に達しています。また、大部分のベースシステムは音声復刻機能をサポートしていません。

遅延の観点から見ると、Seed LiveInterpret2.0は音声からテキストのシーンにおいて、最初の文字の出力平均遅延がわずか2.21秒であり、音声から音声のシーンでは出力遅延がわずか2.53秒であり、翻訳の品質と遅延のバランスを取っています。

技術報告:

https://arxiv.org/pdf/2507.17527

プロジェクトページ:

https://seed.bytedance.com/seed_liveinterpret