當前的數字化視頻處理系統雖發展迅速,但在面對複雜的空間移動和物理規律時,依然表現出明顯的“理解缺失”。它們或許能描述畫面內容,卻難以回答諸如“紅車是否在藍車轉彎前通過路口”或“皮球運行軌跡最高點在哪”等涉及精細物理邏輯的問題。

究其根本,在於高質量運動參考數據的極度匱乏。現有的參考信息規模有限,且高度依賴高昂的人工識別,難以支撐計算系統學習真實世界中的細粒度物理運動。針對這一痛點,來自MIT、英偉達(NVIDIA)、加州大學伯克利分校等機構的研究團隊提出了 FoundationMotion:一套完全不依賴人工參與的自動化數據生成管線。
該管線的工作流程如同一個全自動的“運動數據工廠”,主要分爲三個階段:
軌跡提取: 系統利用先進的目標追蹤技術,將視頻中的行人、車輛或機械臂等物體轉化爲連續的時空座標軌跡。
語義轉化: 將抽象的座標數字轉化爲結構化的文本說明,結合視頻幀信息,爲系統提供一份詳盡的“運動說明書”。
自動質檢與生成: 最終通過邏輯整合,生成包含速度、方向、時序關係及空間位置的精細化問答數據。
令人驚訝的是,實驗結果顯示,僅依靠這套管線生成的數據進行優化後,一個擁有 150 億參數的視頻分析系統在運動理解任務上的準確率達到了 90.6%。這一表現不僅超越了擁有 720 億參數的大型開源架構,甚至優於目前市面上主流的商業閉源系統。
研究人員指出,這一提升完全歸功於數據的純淨度與準確性,證明了在自動駕駛、機器人協作等領域,系統對物理世界的直覺可以通過海量、高質量的自動化數據訓練來建立。這標誌着數字化系統在通向具備“物理常識”的具身技術道路上邁出了關鍵一步。
