先ごろ、グーグルのDeepMindチームはブラウン大学と協力し、「フォースプロンプティング」という新しい技術を開発しました。この技術は、3Dモデルや物理エンジンを使用せずに、現実に近い動きを生成することが可能です。これは、人工知能によるビデオ生成分野における大きな進展を意味します。
この技術を使用すれば、ユーザーは力の方向と強度を指定するだけで、AIによって生成されるビデオコンテンツを操作することができます。フォースプロンプティング技術は、全体的な風力のような「グローバルな力」や特定のポイントでのタップのような「ローカルな力」の両方に対応可能です。入力された力はベクトルフィールド形式でシステムに入り、その後自然でスムーズな動きに変換され、ビデオ生成のリアルさとダイナミックな表現力を大幅に向上させます。
研究チームは、CogVideoX-5B-IVビデオモデルをベースにControlNetモジュールを追加して物理制御データを処理しました。全体のシグナルはTransformerアーキテクチャを通じてビデオが生成され、各ビデオは49フレームからなり、訓練には4台のNvidia A100 GPUが使用され、訓練時間はわずか1日でした。
注目に値するのは、トレーニングデータがすべて合成データであることです。1.5万本の異なる風力下での旗の揺れ、1.2万本のボールの転がり、1.1万本の花が衝撃を受けた反応のビデオなどが含まれています。これらの豊富な合成データにより、モデルは「風」や「泡」などの物理用語がテキスト説明に含まれている場合でも、正しい力と動きの関係を自動的に構築できるようになりました。
トレーニングデータの量は限られていますが、モデルは強力な汎化能力を示しており、新しい物体、素材、シーンにも対応でき、さらには簡単な物理法則も習得しています。例えば、同じ力が作用した場合、軽い物体は重い物体よりも遠くまで動くことが可能です。
ユーザーテストでは、フォースプロンプティング技術は運動の一致度とリアルさにおいて、単なるテキストや動きのパス制御に頼る基準モデルよりも優れており、PhysDreamerと比較しても品質面で優位性を示しました。ただし、複雑なシーンではいくつかの問題が見られます。例えば、煙が風の影響を正確に受けない場合があることや、人間の腕の動きが布のように軽くなることがあります。
DeepMindのCEOであるデミス・ハサビス氏は、次世代のAIビデオモデル(例:Veo3)が物理法則を徐々に理解し始めていることを述べました。これは、単にテキストや画像の処理に留まらず、世界の物理構造を表すようになりつつあることを示しています。これはより汎用的なAIへの重要な一歩であり、将来的には経験を積みながらシミュレーション環境で能力を継続的に最適化し、向上させる可能性があります。
プロジェクトページ: https://force-prompting.github.io/
要点:
🌟 新しい技術「フォースプロンプティング」は、3Dモデルや物理エンジンなしで現実的な動きのビデオを生成できます。
⚙️ ユーザーは簡単な力の方向と強度で自然でスムーズな動きを実現できます。
📈 モデルは新しいシーンや物体にも強く、汎化能力が非常に高いです。