4月9日、ビットテクノロジーのSeedチームは、ネイティブな全二重会話の巨大モデル「Seeduplex」を正式に発表しました。これにより、AI音声インタラクションは従来の「ラウンド制」から、人間の直感に近い「リアルタイムで自然なインタラクション」へと進化しました。豆包のエンド・トゥ・エンド音声モデルの大きなアップグレードであるSeeduplexのコア的な突破点は、「聞くことと話すこと」を同時に処理する同期フレームワークの実現です。この技術は、下位の構造上、音声インタラクションの自然さを解放しています。現在、この技術は豆包アプリで完全にリリースされており、実験室から億単位のユーザーへのスケーラブルな導入を実現しました。

Seeduplexは音声と意味の統合モデリングを通じて、複雑な音響環境での耐障害性を大幅に向上させました。半二重方式に比べて、誤った返答率と誤って中断される率が50%低下しており、ナビゲーションの妨害や多人数の混在音、環境の雑音の中でも、主なユーザーの意図を正確に認識し、環境情報と連動できます。
対話のテンポ制御において、このモデルはダイナミック停止判定技術を導入し、停止判定の遅延を約250ms短縮し、割り込む比率が40%低下しました。ユーザーの「思考の空白」と「対話の終了」を鋭く区別できるようになります。工学的側面では、チームは予測的なサンプリングと量化最適化を用いて、超低遅延を確保しながら高負荷状態でのフリーズ問題を解決し、通話満足度の絶対値が8.34%向上しました。
Seeduplexの実装は、単なるインタラクション効率の飛躍だけでなく、知覚、思考、実行の一元化の未来のトレンドを示しています。今後、視覚モダリティが導入されることで、音声アシスタントは「聞く」「見る」「考える」「話す」多維度の協調を行う一般的なインテリジェントエージェントへと深く進化し、スマートハードウェアおよびマルチモーダルインタラクションの業界基準を再定義します。
プロジェクトのホームページ:
https://seed.bytedance.com/seeduplex
