近日,Meta 的 AI 首席科學家 Yann LeCun 領導的一項研究揭示了人工智能如何通過觀看視頻來培養基本的物理學理解。這項研究由 Meta FAIR、巴黎大學及 EHESS 的科學家們共同完成,顯示出 AI 系統能夠在沒有預設規則的情況下,通過自我監督學習獲得直觀的物理知識。

QQ_1739931962266.png

研究團隊採用了一種名爲視頻聯合嵌入預測架構(V-JEPA)的新方法,與 OpenAI 的 Sora 等生成型 AI 模型相比,V-JEPA 的工作原理更接近人腦的信息處理方式。V-JEPA 並不追求生成完美的像素預測,而是專注於在一個抽象的表示空間中進行預測。通過這種方式,AI 系統能夠學習到基本的物理概念。

研究中,團隊借用了來自發展心理學的 “期望違反” 評估方法,該方法最初用於測試嬰兒的物理理解能力。研究者展示給 AI 兩個相似的場景 —— 一個是物理上可能的,另一個是物理上不可能的(例如,一隻球穿過牆壁),通過測量對這些物理違背現象的反應,可以評估 AI 的物理理解能力。

V-JEPA 在三個數據集上進行了測試:IntPhys(基本物理概念)、GRASP(複雜交互)和 InfLevel(現實環境)。結果顯示,V-JEPA 在物體恆常性、連續性和形狀一致性方面表現尤爲出色,而諸如 Gemini1.5Pro 和 Qwen2-VL-72B 等大型多模態語言模型的表現幾乎與隨機猜測相當。

V-JEPA 學習的效率也引人注目,該系統只需觀看128小時的視頻,就能夠掌握基本的物理概念。而且,連115百萬參數的小型模型也展現出強勁的效果。研究表明,V-JEPA 能夠有效識別運動模式,並以高準確率識別物理上不合理的事件,這爲 AI 真正理解世界的未來奠定了基礎。

這項研究挑戰了許多 AI 研究中的一個基本假設,即系統需要預設的 “核心知識” 以理解物理法則。V-JEPA 的發現表明,觀察學習能夠幫助 AI 獲得這方面的知識,類似於嬰兒、靈長類動物甚至年輕鳥類理解物理的過程。研究符合 Meta 對 JEPA 架構的長期探索目標,旨在創建全面的世界模型,使自主 AI 系統能夠更深入地理解其環境。

劃重點:  

🧠 研究顯示 AI 通過視頻學習物理知識,無需預設規則。  

📊 V-JEPA 在理解物理方面優於大型語言模型,表現出更強的學習能力。  

🌍 Meta 推動新的 AI 發展方向,旨在創建更全面的環境理解模型。