還記得科幻電影中,主角揮舞着魔法棒,就能隨意操控聲音的場景嗎?現在,這種神奇的能力不再是幻想!NVIDIA 最新發佈的AI模型Fugatto,就像一支“聲音魔法棒”,讓用戶僅憑文字就能操控音樂、聲音和語音,創造出各種奇妙的聽覺效果。
Fugatto,全稱爲“Foundational Generative Audio Transformer Opus1”,是一款基於生成式AI技術的音頻處理模型。與其他只能創作音樂或修改語音的AI模型不同,Fugatto 擁有更強大的能力,可以生成或轉換任何音樂、語音和聲音的混合體,並且能夠理解並執行用戶通過文本和音頻文件輸入的指令。
Fugatto 的強大功能讓音樂製作人、廣告公司、語言學習工具開發者和遊戲開發者等各行各業的用戶都爲之驚歎。 音樂製作人可以用它快速嘗試不同的音樂風格、人聲和樂器,甚至可以爲現有的歌曲添加效果或提升音質。 廣告公司則可以用它爲廣告配音添加不同的口音和情緒,輕鬆地將廣告推廣到不同的地區和目標人羣。 語言學習工具開發者可以使用Fugatto 將課程內容轉換成任何用戶想要的聲音,例如家人或朋友的聲音,讓學習更加個性化。 遊戲開發者則可以利用Fugatto 根據遊戲進程實時修改遊戲中的聲音素材,或者根據文本指令和音頻輸入創建全新的遊戲音效。
Fugatto 的神奇之處在於它能夠像人類一樣理解和生成聲音。 它不僅可以執行用戶給出的具體指令,還能創造出前所未有的新聲音。例如,它可以讓小號發出狗叫聲,讓薩克斯風發出貓叫聲,只要用戶能夠描述出來,Fugatto 就能創造出來。

圖源備註:圖片由AI生成,圖片授權服務商Midjourney
Fugatto 的另一項突破性能力是它可以將訓練過程中單獨學習到的指令組合起來,生成更復雜的效果。 例如,用戶可以要求它生成一段帶有悲傷情緒的法語口音語音。 更令人驚歎的是,Fugatto 還允許用戶對指令進行細微的調整,例如控制口音的濃重程度或悲傷情緒的強烈程度,讓用戶能夠像藝術家一樣進行創作。
Fugatto 還能生成隨時間變化的聲音,例如一場暴風雨從遠處逼近,雷聲逐漸增強,然後慢慢消失在遠方。 用戶可以精確地控制聲音的變化過程,創造出各種生動的音效。
Fugatto 是一個由全球各地研究人員共同開發的成果,團隊成員來自印度、巴西、中國、約旦和韓國等國家。 他們多元化的背景讓 Fugatto 擁有更強大的多口音和多語言處理能力。
Fugatto 的誕生是 NVIDIA 在語音建模、音頻編碼和音頻理解等領域多年研究積累的結晶。 它使用了25億個參數,並在配備32個 NVIDIA H100Tensor Core GPU 的 NVIDIA DGX 系統集羣上進行了訓練。
Fugatto 的出現,標誌着音頻處理技術進入了一個全新的時代。它將爲音樂、電影、遊戲、教育等各個領域帶來無限的可能性,讓我們共同期待它創造出更多令人驚歎的聽覺盛宴!
官方博客:https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/
