近日,來自伊利諾伊大學厄巴納 - 香檳分校、Sony AI 及 Sony 集團公司的研究團隊推出了一項名爲 MMAudio 的新技術,該技術旨在通過多模態聯合訓練,實現高質量的視頻到音頻合成。

MMAudio 的核心創新在於能夠利用視頻和文本輸入生成同步的音頻,從而拓展了音頻生成的應用場景,支持輸入視頻或文本,生成符合視頻內容的音效。

MMAudio 的設計使其能夠在各種視聽和音頻文本數據集上進行訓練。這種多模態聯合訓練的方式,不僅提高了合成音頻的質量,還確保了生成的音頻與視頻幀之間的同步。這一同步模塊的引入,極大地增強了音頻生成的精確度,確保了音頻和視頻內容的一致性。

目前,MMAudio 的代碼庫仍在建設中,研究人員表示單個示例推理功能已經可以正常使用,而訓練代碼則將在後續版本中推出。爲了便於用戶使用,該技術已在 Ubuntu 操作系統上進行測試,並提供了相關的安裝指南。用戶需要準備 Python3.9及以上版本,以及適當版本的 PyTorch 和 ffmpeg,隨後可以通過簡單的命令安裝 MMAudio。

MMAudio 在生成音頻時仍存在一些侷限性,比如偶爾會產生不清晰的語音或背景音樂,同時對某些陌生概念的處理也不夠理想。研究團隊認爲,增加高質量的訓練數據能夠幫助解決這些問題。隨着研究的不斷推進,MMAudio 有望在未來進一步優化其性能。

試玩:https://huggingface.co/spaces/hkchengrex/MMAudio

代碼:https://github.com/hkchengrex/MMAudio

劃重點:

🌟 MMAudio 技術通過多模態聯合訓練,實現視頻與音頻的高質量合成。  

📦 用戶可通過簡單安裝步驟,在 Ubuntu 上使用 MMAudio 進行音頻生成。  

⚠️ 當前版本存在一些侷限性,但研究團隊正致力於通過增加訓練數據來改善性能。