近日,Oute AI 發佈了一種新穎的文本轉語音合成方法,稱爲 OuteTTS-0.1-350M。這種方法利用純語言建模,無需外部適配器或複雜架構,提供了一種簡化的 TTS 方法。OuteTTS-0.1-350M 基於 LLaMa 架構,使用 WavTokenizer 直接生成音頻標記,使得流程更加高效。

該模型具有零樣本語音克隆功能,僅需幾秒鐘的參考音頻即可複製新的聲音。OuteTTS-0.1-350M 專爲設備性能而設計,並與 llama.cpp 兼容,使其成爲實時應用的理想選擇。儘管該模型的參數規模相對較小(3.5億個),但其性能可與更大、更復雜的 TTS 系統相媲美。

OuteTTS-0.1-350M 的可訪問性和效率使其適用於廣泛的應用,包括個性化助理、有聲讀物和內容本地化。Oute AI 在 CC-BY 許可下發布,鼓勵進一步實驗和集成到不同的項目中,使先進的 TTS 技術民主化。

QQ20241106-112430.png

OuteTTS-0.1-350M 的發佈標誌着文本轉語音技術向前邁出了關鍵一步,它利用簡化的架構以最少的計算要求提供高質量的語音合成。它集成了 LLaMa 架構,使用了 WavTokenizer,並且能夠執行零樣本語音克隆而無需複雜的適配器,這使它有別於傳統的 TTS 模型。

地址:https://www.outeai.com/blog/OuteTTS-0.1-350M