小紅書智創音頻技術團隊近日推出了新一代對話合成模型 FireRedTTS-2,標誌着對話生成技術的又一重要進展。該模型旨在解決現有對話合成方案中存在的一些痛點,例如靈活性差、發音錯誤頻繁、說話人切換不穩定以及韻律自然度不足等問題。

image.png

FireRedTTS-2通過升級其核心模塊,特別是離散語音編碼器和文本語音合成模型,全面提升了合成效果。在多項主客觀評測中,FireRedTTS-2均顯示出行業領先水平,爲多說話人的對話合成提供了更優的解決方案。其技術報告已在 arXiv 上發佈,並可通過專用 Demo 和代碼鏈接進行體驗。

FireRedTTS-2的一個顯著特點是其合成的自然度,模型能對重音、情緒和停頓等細節進行精確把握,音質自然流暢。與閉源的對話生成模型相比,FireRedTTS-2不僅能夠生成高質量的播客音頻,還支持音色克隆功能。只需提供每個發音人的一句語音樣本,模型就可以模仿其音色和說話習慣,自動生成整段對話。這種功能使得其在開源對話生成領域具備了很強的競爭力。

在訓練過程中,FireRedTTS-2不僅支持多語言(包括中文、英語、日語、韓語和法語),還利用低幀率的離散語音編碼器提高了合成的速度與穩定性。同時,採用雙 Transformer 的模型架構,使得合成語音更自然、更連貫。此外,FireRedTTS-2只需少量數據即可實現音色定製,快速適應不同的應用場景。

FireRedTTS-2的推出不僅爲 AI 播客和對話合成應用提供了工業級解決方案,還爲行業內外的創新探索打開了新的可能性。未來,團隊將持續優化該模型,增加支持的說話人數和語言種類,並探索更多的可控音效插入功能,以滿足不斷增長的市場需求。

  • 代碼鏈接:https://github.com/FireRedTeam/FireRedTTS2 

劃重點:

🎤 FireRedTTS-2是小紅書智創音頻技術團隊推出的新一代對話合成模型,旨在提升合成效果和自然度。  

🗣️ 模型具備音色克隆能力,只需少量樣本即可生成自然的多說話人對話。  

🌐 支持多種語言和低幀率的離散語音編碼器,提高合成速度與穩定性,適應多場景應用。