騰訊出品！AI音頻模型 EzAudio AI，讓文本秒變逼真聲音

近日，約翰霍普金斯大學與騰訊 AI 實驗室聯合推出了一款名爲 EzAudio 的新型文本到音頻生成模型。這項技術承諾以空前的效率和高品質文本轉換爲聲音，標誌着人工智能和音頻技術的重大飛躍。

EzAudio 的工作原理是利用音頻波形的潛在空間，而不是傳統的聲譜圖，這一創新讓它能夠在高時間分辨率下工作，且無需額外的神經聲碼器。

EzAudio 的架構被稱爲 EzAudio-DiT（擴散變換器），採用了多項技術創新來提高性能和效率。其中包括一種新的自適應層歸一化技術 AdaLN-SOLA、長跳連接，以及先進的位置編碼技術如 RoPE(旋轉位置嵌入)。

研究人員表示，EzAudio 生成的音頻樣本非常逼真，客觀和主觀評估均優於現有的開源模型。

目前，AI 音頻生成市場正快速增長。像 ElevenLabs 這樣的知名公司最近推出了一款 iOS 應用，用於文本轉語音的轉換，顯示出消費者對 AI 音頻工具的濃厚興趣。同時，微軟和谷歌等科技巨頭也在不斷加大對 AI 語音模擬技術的投資。

根據 Gartner 的預測，到2027年，40% 的生成式 AI 解決方案將會是多模態的，結合文本、圖像和音頻的能力，這意味着 EzAudio 這樣的高質量音頻生成模型可能會在不斷演變的 AI 領域中發揮重要作用。

EzAudio 團隊已經公開了他們的代碼、數據集和模型檢查點，強調了透明性，並鼓勵該領域的進一步研究。

研究人員認爲 EzAudio 的應用可能超越聲音效果生成，涉及語音和音樂製作等領域。隨着技術的不斷進步，它有望在娛樂、媒體、輔助服務和虛擬助手等行業中得到廣泛應用。

demo:https://huggingface.co/spaces/OpenSound/EzAudio

項目入口:https://github.com/haidog-yaqub/EzAudio?tab=readme-ov-file

劃重點:
🌟 EzAudio 是由約翰霍普金斯大學與騰訊合作推出的新型文本轉音頻生成模型，標誌着音頻技術的一次重大進步。
🎧 該模型通過創新的架構和技術，生成的音頻樣本在質量上優於現有開源模型，具備廣泛的應用潛力。
⚖️ 隨着技術的發展，倫理和責任使用的問題逐漸突顯，EzAudio 的公開研究代碼也爲未來的風險與收益提供了廣泛的檢驗機會。

騰訊出品！AI音頻模型 EzAudio AI，讓文本秒變逼真聲音

相關推薦

英偉達市值突破5萬億美元，推動 AI 行業蓬勃發展

比爾·蓋茨小女兒創業殺入AI電商！Phia獲800萬美元融資，海莉·比伯、卡戴珊家族搶投，60萬用戶已用它“聰明購物”

美國與韓國達成新協議聚焦人工智能與量子技術合作

微軟AI主管蘇萊曼:微軟不會開發情色類AI，與OpenAI劃清界限

Meta AI部門大裁員600人:重塑架構，提升效率，扎克伯格力挺新戰略

騰訊出品！AI音頻模型 EzAudio AI，讓文本秒變逼真聲音

相關推薦

英偉達市值突破5萬億美元，推動 AI 行業蓬勃發展

比爾·蓋茨小女兒創業殺入AI電商！Phia獲800萬美元融資，海莉·比伯、卡戴珊家族搶投，60萬用戶已用它“聰明購物”

​美國與韓國達成新協議 聚焦人工智能與量子技術合作

微軟AI主管蘇萊曼:微軟不會開發情色類AI，與OpenAI劃清界限

Meta AI部門大裁員600人:重塑架構，提升效率，扎克伯格力挺新戰略

美國與韓國達成新協議聚焦人工智能與量子技術合作