谷歌近日推出了視頻生成模型Veo3.1,這是對今年5月發佈的Veo3的升級版本。新版本在音頻輸出、編輯控制粒度和圖像轉視頻質量等方面實現了改進,能夠生成更真實的視頻片段並更準確地遵循用戶提示指令。
在功能層面,Veo3.1允許用戶向視頻中添加新對象,系統會自動將其融入原有畫面風格。谷歌還透露,即將在其視頻編輯工具Flow中支持從視頻中移除現有對象的功能,進一步增強編輯靈活性。
Veo3此前已經提供了多項編輯特性,包括通過參考圖像驅動角色生成、提供首尾幀由AI生成中間內容,以及基於末尾幀擴展現有視頻等功能。Veo3.1的核心升級在於爲所有這些編輯功能增加了音頻生成能力,使輸出的視頻片段具備聲音元素,提升了內容的完整性和沉浸感。
從部署渠道來看,Veo3.1將通過多個平臺向用戶開放。谷歌正在將該模型集成到視頻編輯器Flow、Gemini應用程序,以及面向開發者的Vertex AI和Gemini API接口中。據谷歌披露的數據,自Flow在5月上線以來,用戶已在該平臺上創作了超過2.75億個視頻。
這次更新體現了AI視頻生成技術在兩個方向上的演進。一方面是生成質量的持續提升——更真實的畫面、更準確的提示詞理解;另一方面是編輯能力的細化——從整體生成到局部修改、對象增刪等精細操作。音頻生成的加入則填補了此前AI視頻工具普遍缺乏聲音元素的短板。
不過從技術成熟度來看,AI視頻生成仍處於快速迭代階段。視頻的連貫性、物理規律的準確性、複雜場景的處理能力等方面,各家模型都在持續改進中。Veo3.1的實際表現,包括音頻與畫面的同步質量、對象融合的自然度等細節,還需要通過用戶實際使用來驗證。