記事本文

Qwen3-TTSのアップグレード：多様なボイスで音声合成をより自然に

公開AI二ュ-ス

時間 :Dec 11, 2025

読む :1分

この度、Qwen3-TTS音声合成モデルは全面的なアップグレードを実施し、優れたパフォーマンスにより音声合成分野で注目を集める新鋭モデルとなりました。このバージョンは多様なボイス、多言語、多地域の方言をサポートしており、音声生成の自然さと安定性が向上しています。ユーザーはQwen APIを通じて簡単にこの強力な機能にアクセスできます。

Qwen3-TTSのボイスの種類は大幅に増加し、現在49種類以上の高品質なボイスを提供しており、異なる性別、年齢、地域の特徴をカバーしています。ユーザーはさまざまなシナリオで適切な声を見つけることができます。例えば、「甘えん坊でいたずら好きなモト」や「安心感のある小野杏」、または「厳格な墨講師」など、さまざまなキャラクターが利用可能です。豊富なボイスの選択肢により、合成された音声にはより表現力が生まれ、感情をより効果的に伝えることができます。

また、Qwen3-TTSは多言語および方言のサポートにおいても大きな進歩を遂げました。このモデルは中国語、英語、ドイツ語、フランス語などの主要な10言語をサポートしており、マルチリンガルテストでの平均単語誤り率（WER）は多くの競合製品よりも優れています。さらに、Qwen3-TTSは北京語、広東語、福建南語などの複数の地方話のボイス生成にも対応しており、地元の発音や言葉のニュアンスをリアルに再現することができ、より幅広いユーザーのニーズに対応します。

音声の自然さに関しては、Qwen3-TTSのアダプティブ調整能力が大幅に向上し、テキストの内容に応じて速度やリズムを柔軟に調整できるようになりました。人間のような擬人化の程度は非常に高く、ユーザーがQwen3-TTSを使用して音声合成を行う際には、より自然で滑らかな聴覚体験を得られます。

ユーザーインターフェースの面では、Qwen3-TTSは使いやすいAPIインターフェースを提供しており、開発者が迅速に統合できます。簡単なコードで、ユーザーは高品質な音声合成コンテンツを簡単に作成できます。このような設計は使用のハードルを下げ、より多くの人が先端的な音声合成技術を活用できるようにします。

Qwen3-TTS APIドキュメント:

https://help.aliyun.com/zh/model-studio/multi-round-conversation?spm=a2c4g.11186623.help-menu-2400256.d_0_1_1.49445002U6gJoz

ポイント：
🌟 Qwen3-TTSは49種類の高品質なボイスを追加し、多様なキャラクターがそれぞれのニーズに対応します。
🌍 10種類の主要言語と複数の方言をサポートし、地元の発音や特色をリアルに再現します。
🎤 音声の自然さが向上し、人間のように感じられるようになり、ユーザー体験がより向上しました。

小米が全ラウンド音声大モデル MiMo-V2.5 を発表。TTSで1つの文で新しいボイドを生成可能。ASRは方言と多言語の混在に対応し、オープンソースをサポート

小米がMiMo-V2.5全リンク音声モデルシリーズを発表。TTSモデル3種とオープンソースASRモデル1種を含み、音声入力と出力をカバー。TTSモデルは感情、トーン、役割を正確に制御し、音声のプログラミング、創作、複製を可能にし、人機対話の自然さを向上させ、音声インテリジェンスの新時代を切り開く。....

Apr 24, 2026

337.2k

マイクロソフトBingチームがHarrier多言語埋め込みモデルをオープンソース化

マイクロソフトBingチームが単語埋め込みモデルHarrierをオープンソース化。100種類以上の言語をサポートし、MTEB v2ベンチマークテストで優れた性能を発揮。20億の例とGPT-5によって生成されたデータに基づいて訓練され、32,000語のコンテキスト窓サイズを持ち、270億パラメータを持つ。多言語タスクの正確性と柔軟性を大幅に向上させた。

Apr 8, 2026

221.9k

マイクロソフトBingチームが27B埋め込みモデルHarrierをオープンソース化多言語ベンチマークテストでトップに

マイクロソフトBingチームが新しい単語埋め込みモデル「Harrier」をオープンソース化。27Bパラメータの主力モデルが多言語ベンチマークでOpenAI、Amazon、Google Geminiを上回り、100言語以上をサポート。検索・AIエージェントの基盤技術を革新。....

Apr 8, 2026

202.4k

アリババ・ローンズが大規模オープンソースのQwen3-TTSを発表：97msという極めて低い遅延の音声合成、3秒でクローン＋1文で音声デザインを可能にし、リアルタイムAI音声を完全に変革！

アリババの通義千問チームがQwen3-TTS音声生成モデルをオープンソース化。エンドツーエンド構造で、秒単位の音声クローン、自然言語による音声設計、リアルタイムストリーミング出力を実現。革新的なDual-Track生成メカニズムにより極低遅延を達成し、リアルタイム応用のハードルを大幅に低減。....

Jan 23, 2026

420.7k

ロボットが話せるようになった！ZhiyuanとMiniMaxが協力して、一人ひとりに合わせた特注の人物設定をカスタム制作

MiniMaxはZhiyuanロボットと戦略的協力を開始し、そのすべての段階においてAI技術支援を提供し、体現的な知能を「ハードな運動」から「感情のインタラクション」へと進化させることを推進しました。協力の重点は、Zhiyuanロボットのために深くカスタマイズされたインタラクティブシステムを開発することにあり、それには専用の人間的性格体系が含まれており、ロボットの感情的なインタラクション能力を向上させます。

Jan 5, 2026

178.0k

インテリジェントな未来、あなたの人工知能ソリューションシンクタンク

English 简体中文繁體中文にほんご