アリババ・チュンイーが新世代の音声合成大規模モデル「Qwen3-TTS」を発表し、本日よりQwen APIを通じて世界中の開発者に無料で公開しました。このモデルは49種類の多役音声を提供し、10言語および10種類の中国地方話をサポートしています。公式には、MiniMax TTS multilingual test setでの平均単語誤り率(WER)がMiniMaxとElevenLabsを上回り、人間のような自然さに近づいています。

49種類の音声から即座に選べる
- キャラクターライブラリ:性別、年齢、地域、キャラクター設定を含む。「甘えん坊のマツトゥ」「厳しそうな先生のモクセンセイ」「知的な長老のソウメイコ」など、ワンクリックで切り替え可能
- シーン対応:パーソナイト、オーディオブック、ゲームのNPC、スマートカスタマーサービスなど、秒単位で声を変えることが可能で、追加のトレーニングは不要です。
10言語10方言、跨語種WERでリード
- 主要言語:中国語、英語、ドイツ語、イタリア語、フランス語など10言語をカバー
- 方言リスト:普通話、広東語、四川語など10種類の方言を収録し、地元の口音と語調を保持しています
- 客観指標:MiniMax TTS multilingual test setでの平均WERはElevenLabsを下回り、合成精度は約12%向上しています。

リズムと速度:テキスト駆動、人間のような自然さ
- 自适应速度:テキストの感情に応じて速さや休止時間を自動調整します
- リズムモデル:音節レベルでの強調と語調予測を行い、MOSスコアは4.6、人間の4.8に近づいています
- 実時間ストリーミング:最初のデータパケットの遅延は300ms未満で、ライブ配信や会話シーンに適しています。
無料アクセスと商用対応
- API価格:現在は無料で公開されており、呼び出し回数制限はありません
- 著作権条項:商用利用をサポートしており、追加の費用はかかりません
- サンプルコード:HTTPSリクエスト1つで接続可能で、10行のコードで音声放送を完了できます。
次回:方言クローン + エッジデプロイ
アリババは、2025年第1四半期に「方言音声クローン」機能をリリースする予定で、5秒の音声で地方の口音を再現できます。第2四半期にはエッジボックスバージョンを発表し、オフラインローカルネットワークへの導入をサポートし、スマートな観光地、車載音声などの場面を狙っています。
編集者コメント
