在視頻生成領域,儘管近年來取得了顯著的進展,但現有的生成模型仍然難以真實地捕捉到複雜的運動、動態和物理現象。這種侷限性主要源於傳統的像素重構目標,這種方法往往偏向於提高外觀的真實感,而忽視了運動的一致性。

爲了解決這一問題,Meta 的研究團隊提出了一種名爲 VideoJAM 的新框架,它旨在通過鼓勵模型學習聯合外觀 - 運動表示,來爲視頻生成模型注入有效的運動先驗。

VideoJAM 框架包含兩個互補的單元。在訓練階段,該框架擴展了目標,使其同時預測生成的像素和對應的運動,二者都來自於一個單一的學習表示。

在推理階段,研究團隊引入了一種名爲 “內在引導” 的機制,通過利用模型自身不斷演變的運動預測,作爲動態指導信號,來引導生成過程朝着一致的運動方向發展。值得注意的是,VideoJAM 能夠在不需要修改訓練數據或擴展模型的情況下,應用於任何視頻生成模型。

image.png

經過驗證,VideoJAM 在運動一致性方面達到了業界領先的水平,超越了多個競爭激烈的專有模型,同時也提升了生成圖像的視覺質量。這一研究結果強調了外觀與運動之間的互補關係,當這兩者有效結合時,能夠顯著提高視頻生成的視覺效果和運動連貫性。

此外,研究團隊展示了 VideoJAM-30B 在複雜運動類型生成中的優秀表現,包括滑板運動員的跳躍、芭蕾舞者在湖面上旋轉等場景。通過對比基模型 DiT-30B,研究發現 VideoJAM 在運動生成的質量上有顯著提升。

項目入口:https://hila-chefer.github.io/videojam-paper.github.io/

劃重點:

🌟 VideoJAM 框架通過聯合外觀 - 運動表示提升視頻生成模型的運動表現力。  

🎥 在訓練過程中,VideoJAM 能夠同時預測像素和運動,增強生成內容的一致性。  

🏆 經過驗證,VideoJAM 在運動一致性和視覺質量方面均超越了多個競爭模型。