近日,谷歌 DeepMind 團隊與布朗大學合作,開發了一項名爲 “力提示”(force prompting)的新技術。這項技術能夠在沒有3D 模型和物理引擎的情況下,生成逼真的運動效果,標誌着人工智能視頻生成領域的一大突破。
使用這項技術,用戶只需簡單地指定力的方向和強度,就可以操控 AI 生成的視頻內容。力提示技術可以應用於全局力(例如:整體風力)和局部力(如:特定點的敲擊)兩種情況。輸入的力量以矢量場的形式進入系統,隨後被轉換爲自然流暢的運動,極大地提高了視頻生成的真實感和動態表現。
研究團隊基於 CogVideoX-5B-IV 視頻模型,並加入 ControlNet 模塊來處理物理控制數據。整個信號通過 Transformer 架構生成視頻,每段視頻由49幀組成,而訓練過程只用了4臺 Nvidia A100GPU,訓練時間僅爲一天。
值得注意的是,訓練數據完全來源於合成,包括1.5萬段不同風力下旗幟飄動的視頻和1.2萬段滾動球體、1.1萬段花朵受衝擊反應的視頻。這些豐富的合成數據讓模型能夠在生成過程中,利用文本描述中的 “風” 或 “氣泡” 等物理術語,自動建立正確的力與運動關係。
雖然訓練數據的量相對有限,但模型展示出了強大的泛化能力,能夠適應新物體、材質和場景,甚至掌握了一些簡單的物理規則,比如在相同力量下,輕物體移動的距離遠於重物。
用戶測試顯示,力提示技術在運動匹配度和真實感方面優於僅依賴文本或運動路徑控制的基準模型,並且在質量上超越了基於真實物理模擬的 PhysDreamer。不過,在複雜場景中仍然存在一些不足之處,例如煙霧有時無法正確受到風力的影響,人體手臂的運動偶爾顯得像布料般輕盈。
DeepMind 的首席執行官 Demis Hassabis 表示,下一代 AI 視頻模型(如 Veo3)正逐步理解物理規則,不再侷限於文本或圖像處理,而是開始表徵世界的物理結構。這被認爲是邁向更通用 AI 的重要一步,未來的 AI 有望通過經驗學習,在模擬環境中不斷優化和提升能力。
項目頁:https://force-prompting.github.io/
劃重點:
🌟 新技術 “力提示” 可生成真實運動視頻,無需3D 模型或物理引擎。
⚙️ 用戶通過簡單的力的方向和強度操作,實現自然流暢的運動表現。
📈 模型展現出強大的泛化能力,能夠適應新場景和物體。