現在のデジタルビデオ処理システムは急速に発展していますが、複雑な空間移動や物理法則に対しては依然として明確な「理解不足」を示しています。これらのシステムは画面上の内容を説明することができるかもしれませんが、「赤い車が青い車が曲がる前に交差点を通ったか」とか「ボールの運動軌跡の最高点はどこか」といった、細かい物理的な論理に関連する質問には答えられません。

その根本的な原因は、高品質な運動参照データの極めて少ないことです。現時点での参照情報は規模が限られており、高価な人間による認識に強く依存しているため、リアルワールドにおける微細な物理的運動を学習するには不十分です。この課題に対応するために、マサチューセッツ工科大学(MIT)、ナビダス(NVIDIA)、カリフォルニア大学バークレー校などの研究チームは、FoundationMotionという、人間の参加を一切必要としない自動データ生成パイプラインを提案しました。
このパイプラインの作業プロセスは、まるで完全な自動化された「運動データ工場」のように、主に3つの段階から構成されています:
トレース抽出: システムは高度なオブジェクトトラッキング技術を使用し、ビデオ中の歩行者、車両、ロボットアームなどの物体を連続した時間・空間座標のトレースに変換します。
意味への変換: 抽象的な数値の座標を構造化されたテキスト説明に変換し、ビデオフレーム情報を組み合わせて、システムに詳細な「運動マニュアル」を提供します。
自動検査と生成: 最終的に論理的な統合を通じて、速度、方向、時系列関係および空間位置を含む精緻な質問・回答データを生成します。
驚くべきことに、実験結果によると、このパイプラインで生成されたデータのみを使って最適化した、パラメータ数が150億のビデオ分析システムは、運動理解タスクにおいて正確率が90.6%
研究者はこの向上がデータの純粋さと正確さによって完全に説明され、自律走行やロボット協働などの分野において、システムが物理的世界に対する直感を大量かつ高品質な自動データによって構築できることが証明されたと指摘しています。これは、デジタルシステムが「物理的常識を持つ」エージェント技術へと向かう道のりで重要な一歩を踏み出したことを示しています。
