近日,英偉達發佈了其最新的 Cosmos-Reason1系列模型,旨在提升人工智能在物理常識和具身推理方面的能力。隨着人工智能在語言處理、數學及代碼生成等領域取得顯著進展,如何將這些能力擴展到物理環境中成爲了一大挑戰。
物理 AI(Physical AI)不同於傳統的人工智能,它依賴於視頻等感官輸入,並結合現實物理法則來生成反應。物理 AI 的應用領域包括機器人和自動駕駛車輛等,需要具備常識推理能力和對空間、時間及物理規律的深入理解。
然而,現有的 AI 模型在與物理世界的連接上依然存在弱點,無法直觀理解重力或空間關係,這使得其在具身任務中的表現不佳。直接在物理世界中進行訓練的成本高昂且風險巨大,這在一定程度上阻礙了物理 AI 的發展。
爲了解決這些問題,英偉達的 Cosmos-Reason1模型提出了創新的解決方案。該系列模型包括 Cosmos-Reason1-7B 和 Cosmos-Reason1-56B 兩個版本,採用了物理 AI 監督微調和強化學習兩大訓練階段。
研究團隊引入了雙本體系統,一個分層本體將物理常識分爲空間、時間和基礎物理三大類,另一個本體則映射人類、機械臂和人形機器人等具身代理的推理能力。
模型架構採用了僅解碼器的大型語言模型,結合視覺編碼器以處理視頻數據,從而實現文本和視覺數據的同步推理。爲此,團隊構建了針對物理常識的三個基準測試,涵蓋604個問題和426個視頻,以及針對具身推理的六個基準,包含610個問題和600個視頻。
經過訓練,Cosmos-Reason1模型在物理常識和具身推理基準測試中表現出色,特別是在強化學習訓練後,在預測下一步行動、驗證任務完成及評估物理可行性等方面取得了顯著進展。
隨着 Cosmos-Reason1系列模型的推出,英偉達爲物理推理任務提供了新的解決方案,未來在機器人和自動駕駛領域的應用潛力可期。
入口:https://github.com/nvidia-cosmos/cosmos-reason1
劃重點:
🌟 英偉達發佈 Cosmos-Reason1系列模型,提升 AI 在物理推理中的能力。
🤖 該模型採用雙本體系統,通過視頻和文本數據進行同步推理。
📈 在基準測試中,Cosmos-Reason1模型在物理常識和具身推理方面表現優異。