智元ロボットは上海で、現実世界のロボット操作を対象とした統一ワールドモデルプラットフォーム「Genie Envisioner(GE)」を発表しました。この革新的なプラットフォームは、従来のロボット学習システムの段階的な開発モデルを打ち破り、将来のフレーム予測、戦略学習、シミュレーション評価をビデオ生成を核とするループ構造に統合し、ロボットが「見る」「考える」「動く」までのエンド・トゥ・エンドの推論と実行を実現しました。約3000時間の実際のロボット操作ビデオデータに基づき、GEは跨プラットフォームの一般化および長時間タスクの実行において顕著な優位性を示し、身体知能の発展のために視覚理解から動作実行への新しい技術的アプローチを開拓しました。

GEのコア的な突破点は、ワールドモデルに基づいた視覚中心のモデリング方式の構築です。主流の視覚-言語-行動(VLA)方法とは異なり、GEは直接的に視覚空間内でロボットと環境の相互作用の動態をモデリングし、操作プロセス中の空間構造および時系列の進化情報を完全に保持しています。このモデリング方式はGEに効率的な跨本体の一般化能力をもたらし、極めて少量のデータでも跨プラットフォームの移行を実現できるだけでなく、長時間タスクにおける正確な実行能力にも大きな優位性を持っています。例えば、紙箱の折りたたみなどの超長ステップタスクでは、GE-Actの成功確率は現在の最高水準の方法よりも大幅に上回っています。

微信截图_20250814165048.png

GEプラットフォームは、3つの密接に統合されたコンポーネントから構成されています:GE-Base、GE-Act、GE-Sim。GE-Baseは全体のプラットフォームの核心的な基盤であり、自己回帰的なビデオ生成フレームワークを採用しており、多視点生成能力和疎な記憶メカニズムを持ち、複数の視点からの入力操作シーンを処理でき、ランダムな履歴フレームのサンプリングにより長時間の推論能力を強化します。GE-Actは即插即用の動作モジュールであり、軽量なアーキテクチャにより視覚潜在表現を実行可能なロボット制御命令に変換し、非同期推論モードにより効率的なリアルタイム制御を実現します。GE-SimはGE-Baseの生成能力を動作条件付きの神経シミュレータに拡張し、階層的な動作条件メカニズムにより正確な視覚予測を実現し、閉ループ戦略評価をサポートし、多様な訓練データを生成するデータエンジンとして機能します。

さらに、智元ロボットチームは、身体的タスク向けのワールドモデルの品質を評価するためのEWMBenchベンチマークツールを開発しました。複数の先進モデルとの比較において、GE-Baseはいくつかの重要な指標で最良の結果を達成し、人間の判断と非常に一致しています。智元ロボットは、GEのすべてのコード、事前トレーニング済みモデル、および評価ツールをオープンソース化することを計画しており、ロボットが受動的な実行から能動的な「想像—検証—行動」への転換を促進します。今後、GEはより多くのセンサーモードを拡張し、全身移動および人とロボットの協働をサポートし、継続的にスマート製造およびサービスロボットの実用化を推進していきます。

🔹 Project page

https://genie-envisioner.github.io/ 

🔹 Arxiv

https://arxiv.org/abs/2508.05635 

🔹Github

https://github.com/AgibotTech/Genie-Envisioner