B站文本轉語音模型IndexTTS ：支持拼音糾正漢字發音、精準控制停頓

B站的一款基於 XTTS 和 Tortoise 的 GPT 風格文本轉語音（TTS）模型 IndexTTS 正式發佈。該系統在處理中文文本時，具備獨特的拼音糾正漢字發音能力，並能夠通過標點符號在任意位置精準控制停頓。這一創新的技術使得文本轉語音的效果更加自然流暢，受到了廣泛關注。

IndexTTS 系統經過數萬小時的數據訓練，已實現業內領先的性能，超越了當前流行的 TTS 系統，包括 XTTS、CosyVoice2、Fish-Speech 和 F5-TTS 等。系統的多個模塊經過增強，特別是在揚聲器條件特徵表示和音頻質量優化方面進行了深度改進。通過引入混合建模的方式，IndexTTS 能夠快速糾正誤讀的漢字，提升了用戶的使用體驗。

該模型採用了最新的條件編碼器和基於 BigVGAN2的語音解碼器，不僅提高了訓練的穩定性，還增強了聲音音色的相似性及音質。團隊表示，他們已經在 arXiv 上提交了相關論文，並計劃在未來幾周內發佈模型參數和代碼。此外，IndexTTS 還提供了多種測試集，包括多音節詞彙以及主觀和客觀評測集，供研究者進行深入分析。

在多項評測中，IndexTTS 表現出色，特別是在字詞錯誤率（WER）和揚聲器相似性(SS)方面，均優於許多同行模型。例如，在普通話的測試中，IndexTTS 的字詞錯誤率僅爲1.3%，遠低於其他模型的表現，顯示出其強大的準確性和穩定性。同時，在音質評測中，IndexTTS 的 MOS 評分也達到4.01，展示了其出色的音質和音色。

隨着技術的不斷進步和應用場景的擴展，IndexTTS 的發佈標誌着文本轉語音技術向更高水平邁進。有關該系統的更多信息，用戶可以聯繫相關團隊以獲取詳細的使用體驗和技術支持。

項目:https://github.com/index-tts/index-tts

劃重點:
🌟 IndexTTS 是基於 XTTS 和 Tortoise 的 GPT 風格 TTS 模型，能夠糾正漢字的發音並控制停頓。
📊 系統經過數萬小時訓練，超越了多個現有的流行 TTS 系統，展現出行業領先性能。
🔍 IndexTTS 在多項評測中表現優異，字詞錯誤率和音質均優於其他模型，顯示其強大優勢。

B站文本轉語音模型IndexTTS ：支持拼音糾正漢字發音、精準控制停頓

相關推薦

微軟推出 Critique 功能讓 GPT 與 Claude 協同科研

模型界“強強聯手”！微軟發佈深度研究智能體：GPT 負責草擬，Claude 負責審稿

OpenAI擬從客戶“AI輔助研發成果”中抽成，商業化模式再升級，引發行業關注

李楠：錘子 TNT 如夢初醒，AI 時代爲羅永浩的預言翻盤

OpenAI 年內第四收！4 億美元全股票拿下 Neptune，訓練監控棧再補強