Google DeepMind的最新視頻生成模型 Veo2正式登陸Google AI Studio和Gemini API,標誌着AI視頻生成技術邁向新的高度。作爲Google對標OpenAI Sora的旗艦產品,Veo2以其卓越的視覺真實感、物理模擬能力以及對複雜指令的精準響應,迅速成爲業界焦點。

QQ_1744766816452.png

Veo2:高保真視頻生成的突破

Veo2是Google DeepMind在視頻生成領域的最新力作,支持從文本或圖像提示生成高達720p分辨率、每秒24幀、時長最長8秒的視頻片段,未來有望擴展至4K分辨率和更長時長。

相較於前代模型,Veo2在視覺細節、運動流暢性及物理真實性上實現了顯著突破。模型能夠精準模擬現實世界的物理規律,例如液體的流動、物體的碰撞以及人物的自然動作,減少了AI生成視頻常見的“幻覺”問題,如多餘的手指或不自然的物體。

Veo2的獨特優勢在於其對 電影語言 的深刻理解。用戶可通過提示詞指定鏡頭類型(如18mm廣角鏡頭)、拍攝角度(如低角度追蹤鏡頭)或特效(如淺景深),生成具有專業電影質感的視頻。例如,提示“陽光下蜜蜂環繞蜂農,35mm鏡頭,金色光線”可生成細膩逼真的動態場景,蜂羣的自然運動與蜂農的動作協調一致。這種對複雜指令的精準響應,使Veo2在與其他領先模型的對比測試中脫穎而出,特別是在人類評測的MovieGenBench數據集上表現優異。

Google AI Studio:開發者與創作者的創意新平臺

Veo2現已集成至 Google AI Studio,爲開發者提供了一個直觀的實驗平臺。用戶可通過Google AI Studio測試提示詞、調整參數(如分辨率、時長、寬高比),並實時預覽生成結果。對於希望將Veo2融入自身應用的開發者,Gemini API提供了付費層級支持,定價爲每秒視頻0.35美元。這種靈活的接入方式降低了技術門檻,使個人創作者、中小型企業以及大型工作室都能快速上手。

此外,Veo2支持 文本到視頻(T2V) 和 圖像到視頻(I2V) 兩種生成模式。開發者可通過詳細的文本描述生成全新場景,或以圖像爲參考,結合文本提示生成符合特定風格的動態內容。例如,遊戲開發公司Wolf Games利用Veo2打造個性化互動故事遊戲,顯著提升了視頻真實感和製作效率,減少了60%以上的視覺迭代次數。

安全與責任:AI生成內容的守護者

Google在Veo2的開發中秉持負責任的AI原則。所有生成視頻均嵌入 SynthID 數字水印,以標識AI生成內容,降低誤導信息傳播的風險。同時,模型內置安全過濾器和內容檢查機制,確保生成內容符合隱私、版權和道德規範。Google表示,Veo2的逐步推廣策略旨在持續優化模型質量與安全性,爲未來更廣泛的應用奠定基礎。

Veo2的推出爲多個行業帶來了變革性機遇。在 內容創作 領域,YouTube Shorts已於2025年2月集成Veo2,創作者可通過文本提示生成獨特場景,豐富短視頻敘事。在 營銷 領域,企業可快速生成高質量宣傳視頻,提升品牌吸引力。在 教育 和 遊戲開發 中,Veo2的動態場景生成能力爲互動學習和沉浸式體驗提供了新工具。市場分析顯示,全球AI視頻生成市場預計2025年突破50億美元,Veo2的普及將進一步加速這一趨勢。

AIbase認爲,Veo2登陸Google AI Studio不僅是技術層面的突破,更是Google在AI創意工具領域戰略佈局的體現。其高保真生成能力、對電影語言的精準解讀以及靈活的開發者支持,賦予了創作者前所未有的表達自由。未來,Google計劃將Veo2擴展至更多平臺,如YouTube和Vertex AI,並提升視頻時長與分辨率,進一步鞏固其在AI視頻生成領域的領先地位。

參考來源:Google DeepMind官網、Google AI Studio公告、Google Developers Blog及相關行業報道