知名 AI 創業者李沐與他的團隊 Boson.ai 最近推出了全新的開源文本轉語音(TTS)大模型 ——Higgs Audio v2。這款模型不僅可以將文本轉換爲語音,還具備多語言對話生成、韻律自動調整和聲音克隆等多種功能,堪稱語音合成領域的一次重大突破。

Higgs Audio v2的強大之處在於其多模態能力,它不僅能夠處理文本信息,還能理解和生成語音,完成複雜任務。例如,它可以寫一首歌並用特定的聲音演唱,同時還可以配上背景音樂,這在以前的 TTS 技術中是不可想象的。

image.png

該模型融合了多達1000萬小時的語音數據進行訓練,確保其在各種基準測試中的優異表現。根據 EmergentTTS-Eval 測試,Higgs Audio v2在 “情緒” 和 “問題” 兩個類別中,勝率分別超過了 GPT-4o-mini-tts 高達75.7% 和55.7%。在傳統的 TTS 測試中,該模型同樣展現了超凡的性能,成爲行業標杆。

image.png

技術上,Higgs Audio v2採用先進的數據處理方式,每秒25幀的語音信號通過離散化音頻分詞器轉化爲編號序列,從而精準捕捉語義與聲學特徵。同時,模型架構利用了預訓練的大型語言模型,使其在理解語言和上下文方面具備了強大的能力。此外,該模型還具備上下文學習能力,能通過簡單提示快速適應新的任務,實現零樣本的語音克隆。

image.png

在應用場景上,Higgs Audio v2能夠實現實時語音聊天,提供低延遲和情感表達的自然互動,非常適合用在虛擬主播和實時語音助手中。同時,音頻內容創作方面,它能夠生成自然對話和旁白,爲有聲讀物、互動培訓及動態故事講述等提供強大支持。最後,語音克隆功能讓它能夠複製特定人物的聲音,開啓娛樂和創意領域的新可能性。

這款模型的代碼已經全部開源,用戶可以在 GitHub 和 Hugging Face 平臺上找到,支持在本地安裝,用戶需準備 GPU 版的 PyTorch 或使用 Docker 進行簡化安裝。