最近、哔哩哔哩(B 站)のIndexチームは自社開発した音声合成(TTS)システム「IndexTTS-2.0」を全面的にオープンソース化しました。このシステムは感情を制御可能で、話す長さも調整可能な特徴を持ち、ゼロサンプルTTS技術の実用化において重要な一歩を踏み出しました。

image.png

音声合成分野では、話す長さの制御と感情表現が常に業界内の技術的な課題でした。これらの問題を克服するために、IndexTTS-2.0は2つの核心的な革新を導入しています。まず、時間符号化メカニズムです。このメカニズムは、自己回帰型TTSアーキテクチャにおいて初めて採用され、話す長さの制御精度を大幅に向上させ、生成された音声がより安定し自然になり、音声のリズムを正確に制御できるようになりました。次に、音色と感情の非依存モデリングです。このシステムはイノベーティブな非依存モデリング方式を採用しており、ユーザーは多様な感情調節方法から選択可能です。これには単一の音声リファレンス、独立した感情リファレンス音声、感情ベクトル、およびテキスト記述などが含まれます。このような柔軟性により、合成音声の表現力が大幅に向上し、ユーザーが感情表現に対して異なるニーズを満たすことができます。

公式の例を見ると、IndexTTS-2.0はAIナレーション、オーディオブック、動画漫画、ビデオ翻訳、音声対話、ポッドキャスト制作など、多くのシナリオで広く応用できることがわかります。これは音声合成技術の応用範囲を広げています。特にグローバルコンテンツの海外展開において、IndexTTS-2.0は重要な技術的支援を提供し、言語間のビデオをほぼ「差別なし」の現地体験にすることができます。中国語のユーザーが外国語のコンテンツを視聴する場合でも、または海外のユーザーが中国語の動画を視聴する場合でも、元の声のスタイルや感情を保持しつつ、より自然で没入感のある聴覚体験を得ることができます。この技術的突破は、優れたコンテンツの言語間伝播の障壁を低下させ、AIGC技術の世界的な展開に堅固な基盤を提供します。

現在、IndexTTS-2.0のプロジェクト論文、完全なコード、モデル重み、およびオンライン体験ページが同時にオープンソース化されています。IndexTTSチームは、今後もモデル性能を継続的に最適化し、開発者コミュニティと協力して、多言語コミュニケーションおよびグローバル文化の相互接続性を促進する音声技術エコシステムの構築に努めていくと述べました。

オンライン体験アドレス:

https://huggingface.co/spaces/IndexTeam/IndexTTS-2-Demo

ポイント:

🌟 B 站のIndexTTS-2.0システムは全面的にオープンソース化され、感情を制御可能で、話す長さも調整可能な機能を持っています。

🕒 時間符号化メカニズムと非依存モデリングを導入し、音声合成の自然さと表現力を向上させています。

🌍 このシステムはグローバルコンテンツの海外展開に技術的支援を提供し、言語間のビデオの現地体験を改善しています。