小紅書スマート音声技術チームは最近、新世代の対話合成モデル「FireRedTTS-2」をリリースしました。これは対話生成技術における新たな重要な進展です。このモデルは、現行の対話合成ソリューションに存在するいくつかの課題、例えば柔軟性が低く、発音ミスが多く、話者切り替えが不安定で、リズムの自然さが不足しているなどの問題を解決することを目的としています。

image.png

FireRedTTS-2は、特に離散音声エンコーダーとテキストから音声への変換モデルというコアモジュールをアップグレードすることで、合成効果を全面的に向上させました。複数の主観的・客観的な評価において、FireRedTTS-2は業界の先駆けレベルを示しており、複数の話者の対話合成に対してより優れたソリューションを提供しています。その技術報告書はarXivに掲載されており、専用のデモやコードのリンクを通じて体験することが可能です。

FireRedTTS-2の顕著な特徴の一つは、合成の自然度です。モデルは強調、感情、停頓などの細部を正確に捉えることができ、音質は自然で滑らかです。閉源型の対話生成モデルと比較して、FireRedTTS-2は高品質なポッドキャスト音声を生成できるだけでなく、音色クローン機能もサポートしています。各発言者に一文の音声サンプルを提供するだけで、モデルはその音色と話し方を模倣し、全体の対話を自動生成できます。このような機能により、オープンソースの対話生成分野において非常に競争力があります。

訓練プロセスにおいて、FireRedTTS-2は中国語、英語、日本語、韓国語、フランス語など複数の言語をサポートしています。また、低フレームレートの離散音声エンコーダーを使用することで、合成の速度と安定性を向上させています。さらに、双トランスフォーマーのモデルアーキテクチャを採用し、合成された音声がより自然でつながりのあるものとなっています。また、FireRedTTS-2は少量のデータで音色カスタマイズが可能であり、さまざまな応用シナリオに迅速に対応できます。

FireRedTTS-2のリリースは、AIポッドキャストや対話合成アプリケーションに産業レベルのソリューションを提供するとともに、業界内外でのイノベーションの探求に新しい可能性を開きました。今後、チームはこのモデルを継続的に最適化し、サポートする話者の人数と言語の種類を増やし、さらなる制御可能なサウンドエフェクトの挿入機能を探索していく予定です。

  • コードリンク:https://github.com/FireRedTeam/FireRedTTS2 

ポイント:

🎤 FireRedTTS-2は小紅書スマート音声技術チームがリリースした新世代の対話合成モデルで、合成効果と自然さを向上させることが目的です。

🗣️ モデルは音色クローン機能を持ち、少量のサンプルで自然な複数話者による対話を生成できます。

🌐 複数の言語と低フレームレートの離散音声エンコーダーをサポートし、合成速度と安定性を向上させ、多様なシナリオに適応します。