在音樂和聲音創作領域,技術與創意的結合總是面臨諸多挑戰。現有的 AI 模型往往只擅長特定的任務,缺乏廣泛的適應性,這使得 AI 在音樂製作中的輔助作用受限。爲了讓 AI 更好地服務於音樂與音頻生產,亟需一款能夠靈活應對各種創作需求的通用模型。爲此,NVIDIA 推出了 Fugatto,這是一款擁有25億參數的音頻生成與處理模型。

image.png

Fugatto 的設計旨在通過結合文本提示與先進的音頻合成能力,提供高靈活度的聲音輸入和創作實驗空間。例如,它可以將鋼琴旋律轉變爲人聲演唱,或者讓小號發出意想不到的聲音。

image.png

Fugatto 不僅支持文本輸入,還支持可選的音頻輸入,打破了傳統音頻生成模型的侷限,使得藝術家和開發者能夠實時進行創作與修改,流暢地生成新類型的聲音。

在技術方面,Fugatto 採用了一種創新的數據生成方法,超越了傳統的監督學習。它的訓練不僅依賴於常規數據集,還結合了專門生成的數據集,從而創建了豐富多樣的音頻與轉換任務。此外,Fugatto 藉助大語言模型(LLM)來增強指令生成能力,更好地理解音頻與文本提示之間的關係。

image.png

一個重要的創新是 “可組合音頻表示變換”(ComposableART),這是一種在推理時使用的技術,能夠靈活地結合、插值或否定不同的音頻生成指令。ComposableART 使得用戶在音頻合成過程中擁有更高的控制力,可以精確地導航 Fugatto 的聲音調色板,創造出獨特的聲音現象。

Fugatto 的架構基於增強型的 Transformer 模型,採用了自適應層歸一化等特定修改,能夠在多種輸入條件下保持一致性,支持複雜的組合指令。初步測試表明,Fugatto 在常見基準測試中表現不俗,特別是在聲音合成和變換方面,與其他專業模型相比,顯示出更強的能力。

Fugatto 的推出標誌着音頻生成 AI 的一次重要進步,突破了傳統的侷限,爲創意音頻製作提供了強大且靈活的工具。其在音樂、遊戲、娛樂和教育等多個領域的潛在應用,意味着 AI 技術將繼續在助力人類創造力方面發揮重要作用。

官方博客:https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/

論文:https://d1qx31qr3h6wln.cloudfront.net/publications/FUGATTO.pdf

劃重點:

🎵 Fugatto 是 NVIDIA 推出的音頻 AI 模型,擁有25億參數,支持文本與音頻輸入,助力音樂與聲音創作。  

💻 採用創新的數據生成方法和可組合音頻表示變換技術,使得用戶能夠靈活生成和修改聲音。  

🌟 初步測試顯示,Fugatto 在音頻合成與變換方面的表現優於多種專業模型,展示了其強大的創意潛力。