近日,嗶哩嗶哩(B 站)Index 團隊宣佈全面開源其自主研發的文本轉語音(TTS)系統 ——IndexTTS-2.0。該系統具有情感可控和時長可調的特點,標誌着零樣本 TTS 技術的實用化邁出了重要一步。

image.png

在語音合成領域,時長控制和情感表達一直是行業內的技術難題。爲了克服這些問題,IndexTTS-2.0引入了兩項核心創新:首先是時間編碼機制。這一機制在自迴歸 TTS 架構中首次應用,極大提升了語音時長控制的精度,使得生成的語音更加穩定和自然,語音節奏得以精準調控。其次是音色與情感解耦建模。該系統採用創新的解耦建模方式,允許用戶在多種情感調節方式中選擇,包括單一音頻參考、獨立的情感參考音頻、情感向量以及文本描述等。這種靈活性大幅提升了合成語音的表現力,滿足了用戶對情感表達的不同需求。

從官方示例來看,IndexTTS-2.0能夠廣泛應用於 AI 配音、有聲讀物、動態漫畫、視頻翻譯、語音對話及播客製作等多種場景,爲語音合成技術的應用拓寬了邊界。特別是在全球內容出海方面,IndexTTS-2.0提供了重要的技術支持,使跨語言視頻實現接近 “無差別” 的本地化體驗。無論是中文用戶觀看外語內容,還是海外用戶觀看中文視頻,都能在保留原聲風格與情感的基礎上,獲得更自然、更沉浸的聽覺體驗。這一技術突破降低了優質內容跨語言傳播的門檻,爲 AIGC 技術在全球的落地提供了堅實基礎。

目前,IndexTTS-2.0的項目論文、完整代碼、模型權重以及在線體驗頁面已同步開源。IndexTTS 團隊表示,未來將持續優化模型性能,並與開發者社區合作,推動多語種交流和全球文化互聯互通的語音技術生態的建設。

在線體驗地址:

https://huggingface.co/spaces/IndexTeam/IndexTTS-2-Demo

劃重點:

🌟 B 站的 IndexTTS-2.0系統已全面開源,具備情感可控與時長可調功能。  

🕒 引入時間編碼機制和解耦建模,提升了語音合成的自然性與表現力。  

🌍 該系統爲全球內容出海提供技術支持,使跨語言視頻本地化體驗更佳。