在人工智能領域,文本音頻生成技術正逐漸成爲研究的熱點。最近,研究者們推出了一款名爲 TANGOFLUX 的全新模型,該模型在性能和效率上均表現出色。

TANGOFLUX 是一種高效的文本到音頻生成模型,擁有515百萬個參數,能夠在短短3.7秒內生成最長可達30秒的44.1kHz 音頻,這一速度讓其在單個 A40GPU 上的表現非常出色。

image.png

TANGOFLUX主要是特色是可以生成各種音效,例如鳥叫、口哨、爆炸等聲音,另外也支持生成音樂不過效果就不那麼理想了。

文本音頻生成模型的一個主要挑戰在於如何創建偏好配對。與大型語言模型(LLMs)不同,文本音頻生成模型缺乏可驗證的獎勵機制或金標準答案。爲了解決這個問題,研究團隊提出了一種名爲 CLAP-Ranked Preference Optimization(CRPO)的新框架。該框架通過迭代生成和優化偏好數據,以提升文本音頻生成模型的對齊性能。研究表明,使用 CRPO 生成的音頻偏好數據在性能上優於現有的替代方案。

通過這一框架,TANGOFLUX 在多項客觀和主觀基準測試中都取得了領先的表現。此外,研究團隊還決定將所有代碼和模型開源,以支持更多人對文本音頻生成的研究。對於需要音頻生成的應用場景,TANGOFLUX 無疑是一項具有重要意義的技術進展。

在實際效果方面,TANGOFLUX 在音頻生成質量上優於其他模型,展現出更清晰的事件聲音、更好的事件順序再現以及更高的音頻質量。通過對多個示例的比較,用戶可以直觀地感受到 TANGOFLUX 在音頻生成中的優勢。

提示詞:人類悠揚的口哨聲與自然鳥鳴和諧共存,生成的效果如下:

隨着這一新技術的問世,文本到音頻生成的應用前景愈加廣闊,未來可能會在影視製作、遊戲音效等領域發揮重要作用。

項目入口:https://tangoflux.github.io/

劃重點:

🎧 TANGOFLUX 是一款高效的文本音頻生成模型,能夠在3.7秒內生成30秒的高質量音頻。  

🔧 提出了 CLAP-Ranked Preference Optimization(CRPO)框架,以優化模型性能和音頻偏好數據。  

🌍 所有代碼和模型已開源,旨在推動文本音頻生成的研究與應用。