Meta 最近推出的 V-JEPA2模型標誌着人工智能領域的一項重大突破,特別是在機器人技術的應用上。儘管大型語言模型(LLMs)在文本處理方面表現出色,但它們在動態現實環境中的物理 “常識” 方面仍顯不足,這限制了它們在製造和物流等領域的應用。因此,V-JEPA2的出現爲解決這一問題提供了新的思路。

image.png

V-JEPA2通過從視頻和物理交互中學習,構建了一個 “世界模型”。這種模型使得 AI 應用能夠在多變的環境中進行預測和規劃,爲更智能的機器人和先進的自動化打下了基礎。與傳統模型相比,V-JEPA2採用了視頻聯合嵌入預測架構,其核心在於理解場景中的事物,預測行爲變化,以及規劃達到特定目標的行動序列。

該模型的訓練分爲兩個階段。第一階段,V-JEPA2通過觀看超過一百萬小時的無標籤視頻,自我學習物理規律,構建基礎知識。第二階段,則是通過62小時的機器人操作視頻和相應控制指令進行細化訓練,確保模型能將具體動作與物理結果聯繫起來。得益於這種兩階段的訓練,V-JEPA2具備了 “零 - shot” 機器人規劃能力,能夠在全新的環境中操控從未見過的物體。

具體來說,當機器人被賦予一個目標圖像時,它會利用 V-JEPA2模型進行內部模擬,評估一系列可能的下一步動作,並選擇最優的執行,從而完成任務。這種方法在處理不熟悉的物體時,其成功率可達65% 到80%。

V-JEPA2的應用前景廣闊,尤其是在物流和製造業中。它允許機器人在產品和倉庫佈局發生變化時,快速適應,無需大量重新編程。這對於正在探索在工廠和組裝線中部署人形機器人的企業而言,意義重大。此外,V-JEPA2也可以推動高度逼真的數字孿生技術,幫助企業在物理準確的虛擬環境中模擬新流程或訓練其他 AI。

image.png

Meta 希望通過發佈 V-JEPA2模型及其訓練代碼,推動社區共同進步,實現其長遠目標,即開發出能夠像人類一樣理解世界、規劃和執行不熟悉任務的 AI 系統。

項目:https://ai.meta.com/vjepa/

劃重點:  

🔍 V-JEPA2模型通過觀察視頻和物理交互,構建 “世界模型”,提升機器人在動態環境中的操作能力。  

🤖 該模型支持 “零 - shot” 機器人規劃,允許機器人在全新環境中操控陌生物體,無需額外訓練。  

📈 V-JEPA2的應用前景廣泛,能夠提高物流和製造業中機器人的適應性,減少重編程需求。