谷歌最近推出了其最新的視頻生成模型 Veo3,標誌着 AI 視頻技術的一次重大飛躍。這款新模型實現了音畫同步生成功能,能夠根據用戶的提示詞,自動生成包含對白、脣動對齊和環境音效的高質量視頻。這一突破使得 AI 視頻製作跨越了多模態的邊界,讓視頻不僅會動,還會說話。

Veo3的核心技術是名爲 V2A(Video-to-Audio)的算法,該技術能夠將視頻的視覺信息轉化爲語義信號,並與文本提示結合生成音軌。結合谷歌在 YouTube 等平臺上積累的豐富數據資源,Veo3在音畫合成能力上展現出令人驚歎的表現。目前,該工具雖然僅面向美國的高階訂閱用戶開放,但它的推出無疑給視頻創作領域帶來了新的可能性。

滑雪、極限運動

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

Veo3的強大功能體現在多個方面。首先,它能夠自動生成脣動對齊的對話和擬真音效。例如,用戶只需輸入一句簡單的提示,Veo3就能生成一段完整的場景視頻,包含人物對話、環境音效,甚至是觀衆的笑聲,這種真實感讓人耳目一新。其次,Veo3具備對複雜提示的理解能力,可以生成邏輯連貫、時間有序的視頻片段,這在以往的視頻生成模型中是非常困難的。最後,該模型在處理物理世界聲音方面表現出色,能夠模擬腳步聲、烹飪聲等,使得視頻更具生動性和沉浸感。

儘管 Veo3的短視頻長度限制爲8秒,並且目前僅面向249.99美元的高階訂閱用戶,但其強大的音畫同步能力已引發廣泛關注。未來,隨着技術的進一步發展,Veo3無疑將推動視頻生成技術邁向新的高度。