最近,Adobe 研究團隊與密歇根大學的研究人員聯合開發了一款名爲 MultiFoley 的人工智能系統,這款系統能夠生成電影和視頻中的配音音效,助力後期製作。
MultiFoley 的創新之處在於它允許用戶通過文字提示、參考音頻或視頻示例來創造音效。在演示中,該系統甚至能將貓的叫聲轉化爲獅子的吼叫,或將打字機的聲音轉換爲鋼琴音符,並與視頻畫面完美同步。
MultiFoley 的音頻輸出質量達到48kHz 的高帶寬,這主要得益於研究人員使用互聯網上的視頻和專業音效庫進行訓練。與以往的系統不同,MultiFoley 首次將多種輸入方式 —— 文本、音頻和視頻參考 —— 整合到同一模型中。它通過分析每秒8幀的視覺特徵,並將其放大以匹配40Hz 的音頻採樣率,確保生成的音頻與視頻保持緊密同步。
在測試中,MultiFoley 在音頻與視頻的同步和音效與文本描述的匹配方面表現出色,平均同步精度達到了0.8秒,顯著優於傳統系統通常超過一秒的延遲。用戶研究顯示,85.8% 的參與者認爲 MultiFoley 在語義一致性方面優於第二名,而94.5% 的參與者更喜歡它的同步效果。
儘管 MultiFoley 展現出了強大的潛力,但研究團隊也指出目前的一些侷限性,例如訓練數據相對較小,這限制了它的音效種類。同時,系統在生成多個同時音效時也存在一定困難。研究團隊計劃不久後發佈源代碼和模型。
雖然 Adobe 尚未宣佈將 MultiFoley 納入其產品中,但這一技術與 Adobe Premiere Pro 視頻編輯軟件中現有的人工智能功能非常契合,有望爲個人創作者和製作公司在音效設計流程中帶來便利。
劃重點:
🎬 MultiFoley 是 Adobe 與密歇根大學合作開發的一款 AI 音效生成系統,可通過多種輸入方式生成音效。
🔊 該系統的音頻輸出質量達到48kHz,平均同步精度爲0.8秒,優於傳統音效系統。
📈 用戶研究顯示,MultiFoley 在音效的語義一致性和同步效果方面都獲得了高評價。