アリババ・チュンイーが新世代の音声合成大規模モデル「Qwen3-TTS」を発表し、本日よりQwen APIを通じて世界中の開発者に無料で公開しました。このモデルは49種類の多役音声を提供し、10言語および10種類の中国地方話をサポートしています。公式には、MiniMax TTS multilingual test setでの平均単語誤り率(WER)がMiniMaxとElevenLabsを上回り、人間のような自然さに近づいています。

image.png

49種類の音声から即座に選べる  

- キャラクターライブラリ:性別、年齢、地域、キャラクター設定を含む。「甘えん坊のマツトゥ」「厳しそうな先生のモクセンセイ」「知的な長老のソウメイコ」など、ワンクリックで切り替え可能  

- シーン対応:パーソナイト、オーディオブック、ゲームのNPC、スマートカスタマーサービスなど、秒単位で声を変えることが可能で、追加のトレーニングは不要です。

10言語10方言、跨語種WERでリード  

- 主要言語:中国語、英語、ドイツ語、イタリア語、フランス語など10言語をカバー  

- 方言リスト:普通話、広東語、四川語など10種類の方言を収録し、地元の口音と語調を保持しています  

- 客観指標:MiniMax TTS multilingual test setでの平均WERはElevenLabsを下回り、合成精度は約12%向上しています。

image.png

リズムと速度:テキスト駆動、人間のような自然さ  

- 自适应速度:テキストの感情に応じて速さや休止時間を自動調整します  

- リズムモデル:音節レベルでの強調と語調予測を行い、MOSスコアは4.6、人間の4.8に近づいています  

- 実時間ストリーミング:最初のデータパケットの遅延は300ms未満で、ライブ配信や会話シーンに適しています。

無料アクセスと商用対応  

- API価格:現在は無料で公開されており、呼び出し回数制限はありません  

- 著作権条項:商用利用をサポートしており、追加の費用はかかりません  

- サンプルコード:HTTPSリクエスト1つで接続可能で、10行のコードで音声放送を完了できます。

次回:方言クローン + エッジデプロイ  

アリババは、2025年第1四半期に「方言音声クローン」機能をリリースする予定で、5秒の音声で地方の口音を再現できます。第2四半期にはエッジボックスバージョンを発表し、オフラインローカルネットワークへの導入をサポートし、スマートな観光地、車載音声などの場面を狙っています。

編集者コメント