英偉達出品！AI音頻模型Fugatto：輸入文本、音頻可生成音樂、音效

在音樂和聲音創作領域，技術與創意的結合總是面臨諸多挑戰。現有的 AI 模型往往只擅長特定的任務，缺乏廣泛的適應性，這使得 AI 在音樂製作中的輔助作用受限。爲了讓 AI 更好地服務於音樂與音頻生產，亟需一款能夠靈活應對各種創作需求的通用模型。爲此，NVIDIA 推出了 Fugatto，這是一款擁有25億參數的音頻生成與處理模型。

Fugatto 的設計旨在通過結合文本提示與先進的音頻合成能力，提供高靈活度的聲音輸入和創作實驗空間。例如，它可以將鋼琴旋律轉變爲人聲演唱，或者讓小號發出意想不到的聲音。

Fugatto 不僅支持文本輸入，還支持可選的音頻輸入，打破了傳統音頻生成模型的侷限，使得藝術家和開發者能夠實時進行創作與修改，流暢地生成新類型的聲音。

在技術方面，Fugatto 採用了一種創新的數據生成方法，超越了傳統的監督學習。它的訓練不僅依賴於常規數據集，還結合了專門生成的數據集，從而創建了豐富多樣的音頻與轉換任務。此外，Fugatto 藉助大語言模型（LLM）來增強指令生成能力，更好地理解音頻與文本提示之間的關係。

一個重要的創新是 “可組合音頻表示變換”（ComposableART），這是一種在推理時使用的技術，能夠靈活地結合、插值或否定不同的音頻生成指令。ComposableART 使得用戶在音頻合成過程中擁有更高的控制力，可以精確地導航 Fugatto 的聲音調色板，創造出獨特的聲音現象。

Fugatto 的架構基於增強型的 Transformer 模型，採用了自適應層歸一化等特定修改，能夠在多種輸入條件下保持一致性，支持複雜的組合指令。初步測試表明，Fugatto 在常見基準測試中表現不俗，特別是在聲音合成和變換方面，與其他專業模型相比，顯示出更強的能力。

Fugatto 的推出標誌着音頻生成 AI 的一次重要進步，突破了傳統的侷限，爲創意音頻製作提供了強大且靈活的工具。其在音樂、遊戲、娛樂和教育等多個領域的潛在應用，意味着 AI 技術將繼續在助力人類創造力方面發揮重要作用。

官方博客:https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/

論文:https://d1qx31qr3h6wln.cloudfront.net/publications/FUGATTO.pdf

劃重點:
🎵 Fugatto 是 NVIDIA 推出的音頻 AI 模型，擁有25億參數，支持文本與音頻輸入，助力音樂與聲音創作。
💻 採用創新的數據生成方法和可組合音頻表示變換技術，使得用戶能夠靈活生成和修改聲音。
🌟 初步測試顯示，Fugatto 在音頻合成與變換方面的表現優於多種專業模型，展示了其強大的創意潛力。

英偉達出品！AI音頻模型Fugatto：輸入文本、音頻可生成音樂、音效

相關推薦

美國放行GPT-5.6，OpenAI多款重磅模型本週上線

美國政府鬆綁GPT-5.6：商務部正式放行，OpenAI本週全面推出

強強聯手：SpaceXAI 與 Cursor 聯手打造 AI 模型，性能或直追 GPT-5.5

你的數據正在“餵養”AI：谷歌隱私設置靜默更新，如何守護個人信息？

復旦期末開卷新高度：學生出題反向“調教”AI， 4 人斬獲滿分