アリババ・チュンイー・チンワンチームは昨夜、Qwen3-TTSシリーズの音声生成モデルを正式にオープンソース化しました。この大きなアップデートは、開発者コミュニティを迅速に席巻し、音声合成分野での重要な進歩と見なされています。このシリーズはエンドツーエンドの構造を採用しており、秒単位で音色をコピー、自然言語による音色設計、リアルタイムのストリーミング出力が可能です。これにより、リアルタイムアプリケーションの導入障壁は大幅に低下しました。

ダブルトラック双軌構造で極限の低遅延を実現
Qwen3-TTSの中心的な革新点は、ダブルトラックの二重フロー生成メカニズムです。これは離散的な多コードブック言語モデルと組み合わせて、直接的にエンドツーエンドで音声をモデリングし、従来の連鎖構造(例:LM+DiT)における情報ボトルネックを回避します。実際のテストでは、エンドツーエンドの遅延がわずか97msであり、入力が1文字でも最初のパケットの音声が出力されます。このような極端な応答速度により、ライブ配信、リアルタイム翻訳、AIスマートカスタマーサービスなど、遅延に敏感なシーンに非常に適しています。
3秒で高速クローン + 跨言語/方言の損失なし移行
音声クローン機能は特に驚くべきものです。3秒の参照音声があれば、高忠実度のゼロサンプルの音色を再現できます。クローン後の音色は、中国語の音色が英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、スペイン語、ポルトガル語、イタリア語などの10種類の主要言語にそのまま使用でき、元の音色の特徴を保持します。さらに、四川語、北京語などの中国語の方言も自然に出力でき、口調や神韻を高度に再現することができ、マルチリンガルなコンテンツ制作と地方化アプリケーションに新たな可能性を開きます。
一文で「空から」新しい音色をデザイン
クローンだけでなく、Qwen3-TTSは強力なVoice Design機能も提供しています。ユーザーは自然言語の指示によって、例えば「優しく励ますような大人の女性の声で物語を話す」や「高揚した若者の男性がゲームを解説する」など、自らの声をカスタマイズできます。モデルは自動的にトーン、感情、リズムを調整して、非常に個性的な表現を生成します。このように「思いついた通りに聞こえる」制御能力は、オーディオブックの制作において特に役立ちます。一人で複数の役を演じる、感情の変化や方言の切り替えがすべて可能で、没入感と生産効率を大幅に向上させます。
1.7Bと0.6Bの2サイズ、性能と効率を自由に選べる
Qwen3-TTSファミリーには2つのパラメータ規模があります:
-1.7Bモデル: 性能が最も強く、コントロール能力が突出しており、音質と表現力が非常に高いクラウド環境に適しています;
-0.6Bモデル: 優れた合成品質を維持しながら、より良い推論効率と低いリソース消費を実現しており、エッジデバイスや高並列展開に適しています。
公式には、完全なシリーズ(Base、VoiceDesign、CustomVoiceなど)をGitHubとHugging Faceにオープンソース化しており、全パラメータの微調整が可能です。開発者はブランド専用の音声イメージを簡単に構築できます。
Qwen3-TTSのオープンソース化により、リアルタイム、個人化、多言語の音声AIの導入障壁は大幅に低下しました。コンテンツクリエイター、開発者、企業向けアプリケーションにとって、新たな音声インタラクションの革命を迎えることになります。
プロジェクトの場所:https://github.com/QwenLM/Qwen3-TTS
