智元機器人在上海宣佈推出面向真實世界機器人操控的統一世界模型平臺——Genie Envisioner(GE)。這一創新平臺突破了傳統機器人學習系統分階段開發的模式,將未來幀預測、策略學習與仿真評估整合進以視頻生成爲核心的閉環架構,實現了機器人從“看”到“想”再到“動”的端到端推理與執行。基於約3000小時的真實機器人操控視頻數據,GE在跨平臺泛化和長時序任務執行上展現出顯著優勢,爲具身智能發展開闢了從視覺理解到動作執行的全新技術路徑。

GE的核心突破在於構建了基於世界模型的視覺中心建模範式。與主流的視覺-語言-行動(VLA)方法不同,GE直接在視覺空間中建模機器人與環境的交互動態,完整保留了操控過程中的空間結構和時序演化信息。這種建模範式不僅賦予了GE高效的跨本體泛化能力,使其能夠在極少量數據下實現跨平臺遷移,還在長時序任務的精確執行能力上展現出巨大優勢。例如,在摺疊紙盒等超長步驟任務中,GE-Act的成功率遠超現有頂尖方法。

微信截圖_20250814165048.png

GE平臺由三個緊密集成的組件構成:GE-Base、GE-Act和GE-Sim。GE-Base是整個平臺的核心基礎,採用自迴歸視頻生成框架,具備多視角生成能力和稀疏記憶機制,能夠處理來自多路視角輸入的操控場景,並通過隨機採樣歷史幀增強長時序推理能力。GE-Act作爲即插即用的動作模塊,通過輕量級架構將視覺潛在表徵轉換爲可執行的機器人控制指令,並採用異步推理模式實現高效實時控制。GE-Sim則將GE-Base的生成能力擴展爲動作條件的神經仿真器,通過層次化動作條件機制實現精確的視覺預測,支持閉環策略評估,並可作爲數據引擎生成多樣化的訓練數據。

此外,智元機器人團隊還開發了EWMBench評測套件,用於評估面向具身任務的世界模型質量。在與多個先進模型的對比中,GE-Base在多項關鍵指標上均取得最優成績,且與人類判斷高度一致。智元機器人計劃開源GE的全部代碼、預訓練模型和評測工具,推動機器人從被動執行向主動“想象—驗證—行動”的轉變。未來,GE將擴展更多傳感器模態,支持全身移動與人機協作,持續推動智能製造與服務機器人的落地應用。

🔹 Project page

https://genie-envisioner.github.io/ 

🔹 Arxiv

https://arxiv.org/abs/2508.05635 

🔹Github

https://github.com/AgibotTech/Genie-Envisioner