汎用人工知能の戦いは、物理世界へと急速に広がっています。5月31日、復旦大学深層学習実験室が育成した身体知能企業であるモーシンインテリジェンスは、世界で初めてロボットのために生まれた汎用的身体的な脳として、STI-WM時空間一体化世界動作モデルを正式に発表しました。このイノベーション成果は、従来の大規模モデルの多くの技術的制約を打ち破っただけでなく、中国が物理世界におけるAGIの実現路線において重要な突破を遂げたことを示しています。

現在の業界の主流となるVLAモデルが抱える空間認識、長期計画、本物の機器の頑丈さなどの課題に対し、このモデルは初めて空間構造、時間の進化、物理的一貫性、および実行の頑丈さの4次元の一貫した統合を実現しました。RGB画像や深度ポイントクラウドなどのマルチモーダルな感知入力をサポートでき、複雑な環境をコンパクトな時空間状態に符号化します。上位層では100秒以上の長期的なタスク推論をサポートし、下位層では正確な細分化された動作セグメントを出力します。このような「世界を理解し、未来を推論し、行動を計画し、誤りを修正する」知能の閉ループは、純粋な視覚推論の誤りから完全に脱却しています。

全チェーン自社開発により、このモデルは6つの主要な技術的障壁を構築しました。時空間一体化のネイティブモデリングやポイントクラウドに基づくネイティブ3D認識に加え、モデル内蔵の物理的一貫性エンジンは衝突検出と動力学的制約を統合し、下位階層で不適切な動作を根本的に排除します。また、自社開発のモデル圧縮と量化蒸留技術により、数百億規模の大規模モデルをロボット端末チップに軽量化して展開することに成功し、産業向けの計算リソースのハードルを大幅に下げました。

ハードコアな研究開発とエンドツーエンドのエンジニアリング能力を持つ「復旦の三つ子チーム」も突出した活躍を見せています。会社の研究開発の基盤は復旦大学の陳涛教授が担当し、工学化の実装は前インテル中国チーフサイエンティストの張益民博士とNVIDIAの技術責任者が担い、商業化は95年代の復旦大学の連続起業家である穆澤林が主導しています。2021年からチームは7世代の動作モデル技術のアップデートを完了しており、ICCVやCVPRなどの世界的な大会で複数の優勝を果たしています。