清华大学音声・言語実験室(テンセントAIラボ)が上海創智学院、復旦大学、モーススマートと共同で開発したMOSS-TTSD(Text to Spoken Dialogue)が近日オープンソース化され、AI音声合成技術が対話シーンにおいて大きな進展を遂げたことを示しています。

このモデルはQwen3-1.7B-baseモデルの継続的な訓練に基づき、約100万時間の単一話者音声データと40万時間の対話音声データを基盤としており、離散化された音声シーケンスモデリング方式を採用し、中国語と英語の両方で高表現力な対話音声生成を実現しました。特にAIパーソナラーやオーディオブックや映画の吹き替えなどの長編コンテンツ制作に適しています。

MOSS-TTSDの核心的な革新点はXY-Tokenizerであり、2段階のマルチタスク学習方式を採用し、8層のRVQコードブックを用いて音声信号を1kbpsのビットレートに圧縮しながらも、意味情報と音響情報を保持し、生成される音声の自然さと滑らかさを確保しています。モデルは最大960秒の超長音声生成をサポートしており、従来のTTSモデルでセグメントをつなぎ合わせる際に生じる不自然なトランジションを回避します。さらに、MOSS-TTSDはゼロサンプルの音色クローン機能を持ち、完全な会話セグメントまたは単一の音声をアップロードすることで、二人の音声クローンを実現できます。また、笑いなどの非言語的な音声イベントの制御もサポートしており、音声により豊かな表現力を与えます。

市場上の他の音声モデルと比較して、MOSS-TTSDは中国語の客観的指標においてオープンソースモデルのMoonCastを大幅に上回り、リズムと自然さの面で優れた性能を発揮しています。しかし、バイトダンスの豆包音声モデルと比べると、トーンやリズム感はやや劣るものの、オープンソース性と無料の商用利用という利点により、MOSS-TTSDは依然として強力な応用可能性を示しています。モデルの重み、推論コード、APIインターフェースはGitHub(https://github.com/OpenMOSS/MOSS-TTSD)およびHuggingFace(https://huggingface.co/fnlp/MOSS-TTSD-v0.5)を通じて全面的にオープンソース化されており、公式ドキュメントとオンライン体験デモも公開されています。これにより、開発者にとってアクセスが容易です。

MOSS-TTSDのリリースは、AI音声インタラクション分野に新鮮な活力をもたらし、特に長編インタビュー、ポッドキャスト制作、映画の吹き替えなどのシナリオにおいて、その安定性と表現力がコンテンツ制作のインテリジェンス化を促進するでしょう。今後、チームはモデルのさらなる最適化を目指し、複数話者の場面における音声切り替えの正確性と感情表現の能力を強化する予定です。

住所:https://github.com/OpenMOSS/MOSS-TTSD