谷歌deepmind發佈了一項視頻轉音頻技術V2A,V2A 技術利用視頻像素和文本提示生成豐富的音軌,爲無聲視頻製作配樂,實現同步視聽生成。

產品入口:https://top.aibase.com/tool/deepmind-v2a
用戶可以通過文字描述 “正提示” 或 “負提示” 來引導音頻輸出,實現對音軌創作的精準控制。V2A 系統採用自迴歸和擴散方法生成音頻,實現同步、逼真的音頻輸出。在訓練過程中,系統使用AI生成的註釋,幫助模型理解特定音頻事件與視覺場景的關聯。
運作原理:
V2A 系統首先將視頻輸入編碼爲壓縮表示。然後,擴散模型迭代地從隨機噪聲中提煉音頻。此過程由視覺輸入和給出的自然語言提示引導,以生成與提示緊密一致的同步、逼真的音頻。最後,音頻輸出被解碼,轉換爲音頻波形並與視頻數據相結合。

V2A 系統圖,採用視頻像素和音頻提示輸入來生成與底層視頻同步的音頻波形。首先,V2A 對視頻和音頻提示輸入進行編碼,並通過擴散模型迭代運行。然後生成壓縮音頻,並將其解碼爲音頻波形。
爲了生成更高質量的音頻並增加引導模型生成特定聲音的能力,在訓練過程中添加了更多信息,包括帶有聲音詳細描述和口頭對話記錄的 AI 生成的註釋。
通過對視頻、音頻和附加註釋進行訓練,該技術學會將特定的音頻事件與各種視覺場景聯繫起來,同時響應註釋或記錄中提供的信息。
V2A功能特點:
音頻生成:V2A 根據視頻畫面和用戶提供的文字描述,自動生成同步的音軌,包括戲劇性配樂、逼真音效或與視頻人物和基調相匹配的對話的鏡頭。
同步音頻:採用自迴歸和擴散方法生成音頻,確保生成的音頻與視頻內容完美同步,逼真的音頻輸出。
多樣化音軌:用戶可以生成無限數量的音軌,嘗試不同音效組合,找到最適合視頻內容的聲音。
提示控制:用戶可以通過定義 “正提示” 或 “負提示” 來引導音軌生成,增加對輸出的控制,引導其遠離不需要的聲音。
訓練過程中使用註釋 :在訓練過程中,系統使用 AI 生成的註釋,幫助模型理解特定音頻事件與視覺場景的關聯。
爲了提高音頻生成質量,研究團隊在訓練過程中引入了更多信息,如帶有聲音描述和口頭對話記錄的 AI 生成的註釋。這樣的豐富信息訓練使得技術能夠更好地理解視頻內容,併產生與視覺場景相符的音頻效果。
然而,目前仍存在一些挑戰,該團隊正在改進涉及語音的視頻的脣形同步。V2A 嘗試根據輸入的轉錄文本生成語音,並將其與角色的脣形動作同步。但配對視頻生成模型可能不以轉錄文本爲條件。這會導致不匹配,通常會導致奇怪的脣形同步,因爲視頻模型不會生成與轉錄文本相匹配的嘴部動作。
在向公衆開放之前, V2A 技術將接受嚴格的安全評估和測試。下面是V2A生成的的一些配音配音案例:
1.音頻提示:狼對着月亮嚎叫
2.音頻提示:電影、驚悚片、恐怖片、音樂、緊張感、氛圍、混凝土上的腳步聲
3.音頻提示:音樂會舞臺上的鼓手被閃爍的燈光和歡呼的人羣包圍
音頻提示:可愛的小恐龍鳴叫、叢林氛圍、雞蛋破裂
注:本文視頻均來自谷歌官方示例
