アリババ・ローンズが大規模オープンソースのQwen3-TTSを発表：97msという極めて低い遅延の音声合成、3秒でクローン＋1文で音声デザインを可能にし、リアルタイムAI音声を完全に変革！

アリババ・チュンイー・チンワンチームは昨夜、Qwen3-TTSシリーズの音声生成モデルを正式にオープンソース化しました。この大きなアップデートは、開発者コミュニティを迅速に席巻し、音声合成分野での重要な進歩と見なされています。このシリーズはエンドツーエンドの構造を採用しており、秒単位で音色をコピー、自然言語による音色設計、リアルタイムのストリーミング出力が可能です。これにより、リアルタイムアプリケーションの導入障壁は大幅に低下しました。

ダブルトラック双軌構造で極限の低遅延を実現

Qwen3-TTSの中心的な革新点は、ダブルトラックの二重フロー生成メカニズムです。これは離散的な多コードブック言語モデルと組み合わせて、直接的にエンドツーエンドで音声をモデリングし、従来の連鎖構造（例：LM+DiT）における情報ボトルネックを回避します。実際のテストでは、エンドツーエンドの遅延がわずか97msであり、入力が1文字でも最初のパケットの音声が出力されます。このような極端な応答速度により、ライブ配信、リアルタイム翻訳、AIスマートカスタマーサービスなど、遅延に敏感なシーンに非常に適しています。

3秒で高速クローン + 跨言語/方言の損失なし移行

音声クローン機能は特に驚くべきものです。3秒の参照音声があれば、高忠実度のゼロサンプルの音色を再現できます。クローン後の音色は、中国語の音色が英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、スペイン語、ポルトガル語、イタリア語などの10種類の主要言語にそのまま使用でき、元の音色の特徴を保持します。さらに、四川語、北京語などの中国語の方言も自然に出力でき、口調や神韻を高度に再現することができ、マルチリンガルなコンテンツ制作と地方化アプリケーションに新たな可能性を開きます。

一文で「空から」新しい音色をデザイン

クローンだけでなく、Qwen3-TTSは強力なVoice Design機能も提供しています。ユーザーは自然言語の指示によって、例えば「優しく励ますような大人の女性の声で物語を話す」や「高揚した若者の男性がゲームを解説する」など、自らの声をカスタマイズできます。モデルは自動的にトーン、感情、リズムを調整して、非常に個性的な表現を生成します。このように「思いついた通りに聞こえる」制御能力は、オーディオブックの制作において特に役立ちます。一人で複数の役を演じる、感情の変化や方言の切り替えがすべて可能で、没入感と生産効率を大幅に向上させます。

1.7Bと0.6Bの2サイズ、性能と効率を自由に選べる

Qwen3-TTSファミリーには2つのパラメータ規模があります:

-1.7Bモデル: 性能が最も強く、コントロール能力が突出しており、音質と表現力が非常に高いクラウド環境に適しています;

-0.6Bモデル: 優れた合成品質を維持しながら、より良い推論効率と低いリソース消費を実現しており、エッジデバイスや高並列展開に適しています。

公式には、完全なシリーズ（Base、VoiceDesign、CustomVoiceなど）をGitHubとHugging Faceにオープンソース化しており、全パラメータの微調整が可能です。開発者はブランド専用の音声イメージを簡単に構築できます。

Qwen3-TTSのオープンソース化により、リアルタイム、個人化、多言語の音声AIの導入障壁は大幅に低下しました。コンテンツクリエイター、開発者、企業向けアプリケーションにとって、新たな音声インタラクションの革命を迎えることになります。

プロジェクトの場所：https://github.com/QwenLM/Qwen3-TTS

アリババ・ローンズが大規模オープンソースのQwen3-TTSを発表：97msという極めて低い遅延の音声合成、3秒でクローン＋1文で音声デザインを可能にし、リアルタイムAI音声を完全に変革！

関連推奨

アリババが強力な音声合成モデルQwen3-TTSを発表。49のボーカルスタイルであなたの声のニーズに応えます！

Qwen3-TTSのアップグレード：多様なボイスで音声合成をより自然に

口を開ければキャラクター！アリババのQwen3-TTS登場：49種類のボーカル＋10言語9方言 WERは主流の商用モデルを圧倒

アルイーテンヤ Qwen3-VL に2B、32Bの2つのモデルサイズを追加。スマホでもスムーズに動作

ダボス現地直撃：サルアインの梁静が教育AIバブルを猛攻、大規模モデルのカタチだけでは本物の学びは教えられないのか？