昨日、アリババ・トングイーチームはQwen-TTSモデルを正式にリリースしました。このテキストから音声への変換(TTS)モデルは、非常に高い現実感と多様な中国語の方言サポートにより業界で注目を集めています。AIbase編集チームは最新情報を整理し、Qwen APIを通じて提供されるこの音声合成ツールについて詳しく解説し、AI音声技術分野における画期的な意味合いを紹介します。
Qwen-TTS:超リアルな音声合成
Qwen-TTSは、通義チームが大規模な音声データセットをもとに開発した最新のテキストから音声への変換モデルです。数百万時間の音声訓練により、自然さ、リズム、テンポ、感情表現において非常に高いレベルに達しています。ユーザーはQwen APIを通して、ほぼ本物の人の発声に近い音声体験が可能です。教育、エンタメ、スマートカスタマーサポートなど、さまざまなシーンで活用できます。
図の出典:AIによって生成された画像
多様な中国語の方言と二言語の音声対応
Qwen-TTSの特徴の一つは、豊富な言語サポートです。このモデルは標準的な北京語だけでなく、北京語、上海語、四川語の3種類の中国語の方言にも対応しており、地域特有の音声体験をユーザーに提供します。さらに、Qwen-TTSは7種類の中国語と英語の二言語の音声を提供しており、Cherry、Ethan、Chelsie、Serena、Dylan、Jada、Sunnyという音色があります。各音色は丁寧に調整されており、発音が自然で表現力があることを保証しています。このような多様な方言と音色の設計により、モデルの応用範囲が大幅に広がり、異なる文化背景を持つユーザーのニーズに対応できます。
技術的突破:ストリーミング出力と感情調節
Qwen-TTSはストリーミング音声出力をサポートしており、入力テキストに応じてトーン、速度、感情の変化を動的に調整することができます。生成された音声は現実的であり、繊細な感情表現も可能になります。従来のTTSモデルに比べて、Qwen-TTSは現実感と表現力においてほぼ差がなく、特定の評価(例:SeedTTS-Eval)では業界のトップレベルに達しています。これは、その裏側にある大規模な文脈データベースのトレーニングおよび通義チームが音声合成アルゴリズムに継続的に最適化を施していることによるものです。
業界への影響と将来の展望