近年、動画生成分野は目覚ましい進歩を遂げていますが、既存の生成モデルは、複雑な動き、ダイナミクス、物理現象をリアルに捉えることが依然として困難です。この限界は、主に従来のピクセル再構成目標に起因しており、この方法は外観のリアルさを向上させることに偏りがちで、動きの整合性を無視することが多いです。

この問題を解決するために、Metaの研究チームは、モデルが統合的な外観と動き表現を学習することを促すことで、動画生成モデルに効果的な動き事前情報を注入することを目的とした、VideoJAMという新しいフレームワークを提案しました。

VideoJAMフレームワークは、2つの補完的なユニットで構成されています。トレーニング段階では、このフレームワークは目標を拡張し、生成されたピクセルと対応する動きを同時に予測します。これらは両方とも、単一の学習表現から得られます。

推論段階では、研究チームは「内在的誘導」と呼ばれるメカニズムを導入しました。これは、モデル自身の絶えず進化する動き予測を利用して、動的な誘導信号として、生成プロセスを整合的な動きの方向に導きます。注目すべきは、VideoJAMは、トレーニングデータの変更やモデルの拡張を必要とせずに、あらゆる動画生成モデルに適用できることです。

image.png

検証の結果、VideoJAMは動きの整合性において業界をリードするレベルに達し、複数の競合する専有モデルを凌駕し、生成画像の視覚的な品質も向上させました。この研究結果は、外観と動きの補完的な関係を強調しており、これらが効果的に結合されると、動画生成の視覚効果と動きの連続性が大幅に向上することが示されています。

さらに、研究チームは、スケートボーダーのジャンプや湖面で回転するバレリーナなど、複雑な動きのタイプの生成において、VideoJAM-30Bの優れた性能を示しました。基盤モデルであるDiT-30Bと比較することで、VideoJAMは動きの生成の質において顕著な向上を示すことがわかりました。

プロジェクト入口:https://hila-chefer.github.io/videojam-paper.github.io/

要点:

🌟 VideoJAMフレームワークは、統合的な外観と動き表現によって、動画生成モデルの動き表現力を向上させます。

🎥 トレーニング中に、VideoJAMはピクセルと動きを同時に予測し、生成コンテンツの整合性を高めます。

🏆 検証の結果、VideoJAMは動きの整合性と視覚的な品質の両方において、複数の競合モデルを凌駕しました。