有名なAIスタートアップの李沐(リ・ム)と彼のチームBoson.aiは、最近新しいオープンソースのテキストから音声への変換(TTS)大規模モデル「Higgs Audio v2」をリリースしました。このモデルはテキストを音声に変換するだけでなく、多言語の対話生成、リズムの自動調整、音声クローンなどの機能も備えており、音声合成分野における大きな飛躍と評価されています。

Higgs Audio v2の強みはそのマルチモーダル能力にあり、テキスト情報を処理するだけでなく、音声の理解と生成も行い、複雑なタスクにも対応できます。例えば、歌を作成して特定の声で歌うだけでなく、バックグラウンドミュージックを追加することも可能であり、これは従来のTTS技術では考えられませんでした。

image.png

このモデルは1,000万時間以上の音声データを学習させることで、さまざまなベンチマークテストでの優れたパフォーマンスを確保しています。EmergentTTS-Evalテストによると、Higgs Audio v2は「感情」と「質問」の2つのカテゴリにおいて、GPT-4o-mini-ttsをそれぞれ75.7%と55.7%上回っています。伝統的なTTSテストでも同様に優れた性能を発揮し、業界の基準となっています。

image.png

技術的には、Higgs Audio v2は高度なデータ処理方法を採用しており、1秒間に25フレームの音声信号が離散化された音声トークン化器を通じて番号シーケンスに変換され、意味と音響特徴を正確に捉えます。また、モデルアーキテクチャでは予測された大規模言語モデルを使用し、言語や文脈の理解力が非常に高いです。さらに、このモデルには文脈学習能力があり、簡単なヒントによって迅速に新しいタスクに適応し、ゼロショットの音声クローンを実現できます。

image.png

応用シーンにおいて、Higgs Audio v2はリアルタイムの音声チャットを実現し、低遅延と感情表現を持つ自然なインタラクションを提供します。これはバーチャルキャスターやリアルタイムの音声アシスタントなどに最適です。また、音声コンテンツ制作においては、自然な会話やナレーションを生成し、オーディオブックやインタラクティブトレーニング、ダイナミックな物語の語りなどで強力なサポートを提供します。最後に、音声クローン機能により特定人物の声をコピーできるため、エンタメやクリエイティブ分野に新たな可能性を開きます。