近日,約翰霍普金斯大學與騰訊 AI 實驗室聯合推出了一款名爲 EzAudio 的新型文本到音頻生成模型。這項技術承諾以空前的效率和高品質文本轉換爲聲音,標誌着人工智能和音頻技術的重大飛躍。

image.png

EzAudio 的工作原理是利用音頻波形的潛在空間,而不是傳統的聲譜圖,這一創新讓它能夠在高時間分辨率下工作,且無需額外的神經聲碼器。

EzAudio 的架構被稱爲 EzAudio-DiT(擴散變換器),採用了多項技術創新來提高性能和效率。其中包括一種新的自適應層歸一化技術 AdaLN-SOLA、長跳連接,以及先進的位置編碼技術如 RoPE(旋轉位置嵌入)。

研究人員表示,EzAudio 生成的音頻樣本非常逼真,客觀和主觀評估均優於現有的開源模型。

目前,AI 音頻生成市場正快速增長。像 ElevenLabs 這樣的知名公司最近推出了一款 iOS 應用,用於文本轉語音的轉換,顯示出消費者對 AI 音頻工具的濃厚興趣。同時,微軟和谷歌等科技巨頭也在不斷加大對 AI 語音模擬技術的投資。

根據 Gartner 的預測,到2027年,40% 的生成式 AI 解決方案將會是多模態的,結合文本、圖像和音頻的能力,這意味着 EzAudio 這樣的高質量音頻生成模型可能會在不斷演變的 AI 領域中發揮重要作用。

EzAudio 團隊已經公開了他們的代碼、數據集和模型檢查點,強調了透明性,並鼓勵該領域的進一步研究。

研究人員認爲 EzAudio 的應用可能超越聲音效果生成,涉及語音和音樂製作等領域。隨着技術的不斷進步,它有望在娛樂、媒體、輔助服務和虛擬助手等行業中得到廣泛應用。

demo:https://huggingface.co/spaces/OpenSound/EzAudio

項目入口:https://github.com/haidog-yaqub/EzAudio?tab=readme-ov-file

劃重點:

🌟 EzAudio 是由約翰霍普金斯大學與騰訊合作推出的新型文本轉音頻生成模型,標誌着音頻技術的一次重大進步。

🎧 該模型通過創新的架構和技術,生成的音頻樣本在質量上優於現有開源模型,具備廣泛的應用潛力。

⚖️ 隨着技術的發展,倫理和責任使用的問題逐漸突顯,EzAudio 的公開研究代碼也爲未來的風險與收益提供了廣泛的檢驗機會。