身体知能分野で3週間にわたり謎のモデルとされていたものがついにその正体を明らかにした。これまで、物理世界の理解と動作実行の2つの国際ベンチマークテストで急上昇を遂げた「MotuBrain」というモデルは、業界内で広く憶測を呼んだ。最近、動画大規模モデル「Vidu」で注目を集めた「生数科技」は正式に発表し、このモデルが同社が身体知能分野で初めて商業化した成果であることを明らかにした。

今回の「クロスオーバー」は遊びでない。MotuBrainはWorldArena(物理世界の理解を評価)およびRoboTwin2.0(動作実行を評価)において、ともに歴史的な記録を更新した。特に、シミュレーションされたランダムな乱れがある複雑な環境において、平均点が95点を超えた唯一のモデルであり、非常に高い汎化能力を示している。

image.png

「見ながら動く」:感知と行動の境界を打破

従来の「まず想像してから実行する」モードとは異なり、「MotuBrain」は革新的な「世界動作モデル(World Action Model)」のアプローチを採用している。この「見ながら動く」設計により、ロボットは意思決定と予測を同時に実行し、予測と実行の誤差が互いに拡大しないようにする。これにより、応答速度が大幅に向上している。

実際のデモでは、このシステムを搭載したロボットは非常に高度な知能レベルを示した。鍋料理の場面では、ロボットはスプーンが空かどうかを視覚で判断し、再び掬うべきかどうかを自主的に決定する。これは、単に事前に設定された動作を繰り返すのではなく、状況に応じて判断する能力を意味しており、ロボットが単純な機械的実行から本格的な知的判断へと進化していることを示している。

image.png

一脳多型:長距離タスクのスムーズな連携

「MotuBrain」の中心的な強みはその強力な汎用性にある。このモデルは「一脳多型」に対応し、異なる自由度やセンサーを持つロボット本体にも適応可能であるだけでなく、「一脳貫通」の長距離タスク処理能力も備えている。挿花、カクテル調製、ソファの整頓などのデモでは、ロボットは10以上の原子的動作を連続して完了でき、作業は滑らかで、人為的な介入が不要である。

データによると、「MotuBrain」の学習成功率はタスクの種類が増えれば増えるほど上昇している。これは、モデルが物理世界の一般的な下位法則を掌握していることを示しており、単なる動作テンプレートを暗記しているわけではない。タスクが多ければ多いほど、その性能はさらに優れている。

物理世界への構築:デジタルと実体の両軌並行

「生数科技」が今回披露した実力は、その深い技術的蓄積に起因する。世界的に初となるU-ViTアーキテクチャによって、同社はデジタル世界生成(VGM)と物理世界実行(WAM)を統合した。左手には「Vidu」で仮想世界を生成し、右手には「MotuBrain」で実体とのインタラクションを実行する。この二つの軌道を持つ構造により、データ取得コストとモデルの反復速度において大きな優位性を獲得している。