アリババが強力な音声合成モデルQwen3-TTSを発表。49のボーカルスタイルであなたの声のニーズに応えます！

アリババ・チュンイーが新世代の音声合成大規模モデル「Qwen3-TTS」を発表し、本日よりQwen APIを通じて世界中の開発者に無料で公開しました。このモデルは49種類の多役音声を提供し、10言語および10種類の中国地方話をサポートしています。公式には、MiniMax TTS multilingual test setでの平均単語誤り率（WER）がMiniMaxとElevenLabsを上回り、人間のような自然さに近づいています。

49種類の音声から即座に選べる

- キャラクターライブラリ：性別、年齢、地域、キャラクター設定を含む。「甘えん坊のマツトゥ」「厳しそうな先生のモクセンセイ」「知的な長老のソウメイコ」など、ワンクリックで切り替え可能

- シーン対応：パーソナイト、オーディオブック、ゲームのNPC、スマートカスタマーサービスなど、秒単位で声を変えることが可能で、追加のトレーニングは不要です。

10言語10方言、跨語種WERでリード

- 主要言語：中国語、英語、ドイツ語、イタリア語、フランス語など10言語をカバー

- 方言リスト：普通話、広東語、四川語など10種類の方言を収録し、地元の口音と語調を保持しています

- 客観指標：MiniMax TTS multilingual test setでの平均WERはElevenLabsを下回り、合成精度は約12%向上しています。

リズムと速度：テキスト駆動、人間のような自然さ

- 自适应速度：テキストの感情に応じて速さや休止時間を自動調整します

- リズムモデル：音節レベルでの強調と語調予測を行い、MOSスコアは4.6、人間の4.8に近づいています

- 実時間ストリーミング：最初のデータパケットの遅延は300ms未満で、ライブ配信や会話シーンに適しています。

無料アクセスと商用対応

- API価格：現在は無料で公開されており、呼び出し回数制限はありません

- 著作権条項：商用利用をサポートしており、追加の費用はかかりません

- サンプルコード：HTTPSリクエスト1つで接続可能で、10行のコードで音声放送を完了できます。

次回：方言クローン + エッジデプロイ

アリババは、2025年第1四半期に「方言音声クローン」機能をリリースする予定で、5秒の音声で地方の口音を再現できます。第2四半期にはエッジボックスバージョンを発表し、オフラインローカルネットワークへの導入をサポートし、スマートな観光地、車載音声などの場面を狙っています。

編集者コメント

小米が自社開発のMiMo-V2-TTS音声合成大モデルを発表　複数の関西弁と感情の深い制御を実現

小米が自社開発の音声合成大規模モデル「Xiaomi MiMo-V2-TTS」を発表。制御性と表現力の高い音声生成を実現し、マクロなスタイルからミクロな感情まで精密に調整可能。一文内で語気の転換や感情の変化を自然に再現し、多様な音声スタイルに対応。....

アリババ・ローンズが大規模オープンソースのQwen3-TTSを発表：97msという極めて低い遅延の音声合成、3秒でクローン＋1文で音声デザインを可能にし、リアルタイムAI音声を完全に変革！

アリババの通義千問チームがQwen3-TTS音声生成モデルをオープンソース化。エンドツーエンド構造で、秒単位の音声クローン、自然言語による音声設計、リアルタイムストリーミング出力を実現。革新的なDual-Track生成メカニズムにより極低遅延を達成し、リアルタイム応用のハードルを大幅に低減。....

Qwen3-TTSのアップグレード：多様なボイスで音声合成をより自然に

Qwen3-TTSモデルが全面アップグレードされ、多音色・多言語・多方言に対応し、音声の自然さと安定性を大幅に向上。Qwen API経由で簡単にアクセス可能で、49種類以上の高品質音色を提供し、性別・年齢・地域の特徴をカバーし、多様なシーンに対応。....

口を開ければキャラクター！アリババのQwen3-TTS登場：49種類のボーカル＋10言語9方言 WERは主流の商用モデルを圧倒

阿里巴巴がQwen3-TTS音声合成モデルを発表。ゼロショット、複数キャラクター、多言語対応で、単語誤り率は主要商用エンジンを上回る。49種類の音声、多様なシーンに対応し、10言語と9つの中国方言をサポート。開発者は阿里雲で100万文字まで無料利用可能。....

アルイーテンヤ Qwen3-VL に2B、32Bの2つのモデルサイズを追加。スマホでもスムーズに動作

通義千問にQwen3-VLの2B/32B高密度モデルを追加。軽量から高性能な視覚言語シーンをカバーし、スマホ対応。Instructモデルは応答速度と安定性に優れ、対話システムやツール連携に適する。Thinkingモデルは推論能力を重視。開発の利便性と応用の柔軟性を向上。....