小紅書發佈新一代對話合成模型 FireRedTTS-2，助力 AI 播客製作

小紅書智創音頻技術團隊近日推出了新一代對話合成模型 FireRedTTS-2，標誌着對話生成技術的又一重要進展。該模型旨在解決現有對話合成方案中存在的一些痛點，例如靈活性差、發音錯誤頻繁、說話人切換不穩定以及韻律自然度不足等問題。

FireRedTTS-2通過升級其核心模塊，特別是離散語音編碼器和文本語音合成模型，全面提升了合成效果。在多項主客觀評測中，FireRedTTS-2均顯示出行業領先水平，爲多說話人的對話合成提供了更優的解決方案。其技術報告已在 arXiv 上發佈，並可通過專用 Demo 和代碼鏈接進行體驗。

FireRedTTS-2的一個顯著特點是其合成的自然度，模型能對重音、情緒和停頓等細節進行精確把握，音質自然流暢。與閉源的對話生成模型相比，FireRedTTS-2不僅能夠生成高質量的播客音頻，還支持音色克隆功能。只需提供每個發音人的一句語音樣本，模型就可以模仿其音色和說話習慣，自動生成整段對話。這種功能使得其在開源對話生成領域具備了很強的競爭力。

在訓練過程中，FireRedTTS-2不僅支持多語言（包括中文、英語、日語、韓語和法語），還利用低幀率的離散語音編碼器提高了合成的速度與穩定性。同時，採用雙 Transformer 的模型架構，使得合成語音更自然、更連貫。此外，FireRedTTS-2只需少量數據即可實現音色定製，快速適應不同的應用場景。

FireRedTTS-2的推出不僅爲 AI 播客和對話合成應用提供了工業級解決方案，還爲行業內外的創新探索打開了新的可能性。未來，團隊將持續優化該模型，增加支持的說話人數和語言種類，並探索更多的可控音效插入功能，以滿足不斷增長的市場需求。

代碼鏈接:https://github.com/FireRedTeam/FireRedTTS2

劃重點:
🎤 FireRedTTS-2是小紅書智創音頻技術團隊推出的新一代對話合成模型，旨在提升合成效果和自然度。
🗣️ 模型具備音色克隆能力，只需少量樣本即可生成自然的多說話人對話。
🌐 支持多種語言和低幀率的離散語音編碼器，提高合成速度與穩定性，適應多場景應用。

小紅書發佈新一代對話合成模型 FireRedTTS-2，助力 AI 播客製作

相關推薦

Anthropic紐約大擴軍：租賃曼哈頓 16 層辦公樓，員工規模翻番至 1000 人

告別雲端焦慮：本地優先的桌面 AI 助手 Rowboat 如何重塑你的工作臺？

微軟開始"甩掉"OpenAI和Anthropic：自研MAI模型悄然接手Excel和Outlook

Claude Cowork登陸網頁和手機端：超九成用戶拿它幹非編程活，跨設備接力幹活

AI 電子寵物的進階：追覓推出內置大模型新品 Domi

小紅書發佈新一代對話合成模型 FireRedTTS-2，助力 AI 播客製作

相關推薦

Anthropic紐約大擴軍：租賃曼哈頓 16 層辦公樓，員工規模翻番至 1000 人

告別雲端焦慮：本地優先的桌面 AI 助手 Rowboat 如何重塑你的工作臺？

​微軟開始"甩掉"OpenAI和Anthropic：自研MAI模型悄然接手Excel和Outlook

Claude Cowork登陸網頁和手機端：超九成用戶拿它幹非編程活，跨設備接力幹活

AI 電子寵物的進階：追覓推出內置大模型新品 Domi

微軟開始"甩掉"OpenAI和Anthropic：自研MAI模型悄然接手Excel和Outlook