Deepmind視頻轉音頻技術V2A：實現自動爲視頻配樂、配音

谷歌deepmind發佈了一項視頻轉音頻技術V2A，V2A 技術利用視頻像素和文本提示生成豐富的音軌，爲無聲視頻製作配樂，實現同步視聽生成。

用戶可以通過文字描述 “正提示” 或 “負提示” 來引導音頻輸出，實現對音軌創作的精準控制。V2A 系統採用自迴歸和擴散方法生成音頻，實現同步、逼真的音頻輸出。在訓練過程中，系統使用AI生成的註釋，幫助模型理解特定音頻事件與視覺場景的關聯。

運作原理:

V2A 系統首先將視頻輸入編碼爲壓縮表示。然後，擴散模型迭代地從隨機噪聲中提煉音頻。此過程由視覺輸入和給出的自然語言提示引導，以生成與提示緊密一致的同步、逼真的音頻。最後，音頻輸出被解碼，轉換爲音頻波形並與視頻數據相結合。

V2A 系統圖，採用視頻像素和音頻提示輸入來生成與底層視頻同步的音頻波形。首先，V2A 對視頻和音頻提示輸入進行編碼，並通過擴散模型迭代運行。然後生成壓縮音頻，並將其解碼爲音頻波形。

爲了生成更高質量的音頻並增加引導模型生成特定聲音的能力，在訓練過程中添加了更多信息，包括帶有聲音詳細描述和口頭對話記錄的 AI 生成的註釋。

通過對視頻、音頻和附加註釋進行訓練，該技術學會將特定的音頻事件與各種視覺場景聯繫起來，同時響應註釋或記錄中提供的信息。

V2A功能特點:

爲了提高音頻生成質量，研究團隊在訓練過程中引入了更多信息，如帶有聲音描述和口頭對話記錄的 AI 生成的註釋。這樣的豐富信息訓練使得技術能夠更好地理解視頻內容，併產生與視覺場景相符的音頻效果。

然而，目前仍存在一些挑戰，該團隊正在改進涉及語音的視頻的脣形同步。V2A 嘗試根據輸入的轉錄文本生成語音，並將其與角色的脣形動作同步。但配對視頻生成模型可能不以轉錄文本爲條件。這會導致不匹配，通常會導致奇怪的脣形同步，因爲視頻模型不會生成與轉錄文本相匹配的嘴部動作。

在向公衆開放之前， V2A 技術將接受嚴格的安全評估和測試。下面是V2A生成的的一些配音配音案例:

1.音頻提示：狼對着月亮嚎叫

2.音頻提示：電影、驚悚片、恐怖片、音樂、緊張感、氛圍、混凝土上的腳步聲

3.音頻提示：音樂會舞臺上的鼓手被閃爍的燈光和歡呼的人羣包圍

音頻提示：可愛的小恐龍鳴叫、叢林氛圍、雞蛋破裂

注：本文視頻均來自谷歌官方示例

15 歲少年利用AI實施勒索攻擊，致知名平臺全站停服