身体知能(Embodied AI)分野で今日、重要な進展がありました。小米は初めてのロボット用モデル Xiaomi-Robotics-0 を正式にオープンソース化しました。このモデルは 47億パラメータ を備え、既存のVLA(視覚・言語・動作)モデルが推論遅延によりロボットの動作が遅くなるという課題を解決し、エンドユーザー向けGPUでのリアルタイム推論と効率的な汎化を実現しています。

QQ20260212-141446.png

コアアーキテクチャ:脳と小脳の協働

汎用理解と高頻度制御の両立のために、Xiaomi-Robotics-0はイノベーティブな MoT(Mixture-of-Transformers)混合構造 を採用しています:

  • 視覚言語脳(VLM): ベースとして、人間の曖昧な指示を解釈し、高精細画像における空間関係を捉える役割を果たします。

  • 動作実行小脳(Action Expert): 複数層の Diffusion Transformer (DiT) を内蔵し、流マッチング技術によって正確な「動作ブロック(Action Chunk)」を生成し、物理的実行の柔軟性を確保します。

トレーニングの秘訣:二段階の進化論

小米の研究チームは厳密なトレーニングプロセスを用いて、モデルの常識的理解と体力操作能力のバランスを取っています:

  1. マルチモーダル事前学習: Action Proposal機構を導入することで、VLMが論理的推論能力を維持しながら、特徴空間と動作空間の整合を実現します。その後、VLMを固定し、DiTの専門的なトレーニングを通じて滑らかな動作シーケンスを生成します。

  2. 後学習(Post-training): 実機での「動作断層」問題に対処するために、非同期推論モードを採用しています。Clean Action Prefix(軌跡の連続性を保証)および Λ-shape Attention Mask(現在の視覚フィードバックを強制的に注目)を組み合わせることで、環境の急変に対して非常に迅速な反応力を備えています。

QQ20260212-142413.png

実戦性能:複数のSOTAを更新

テストでは、Xiaomi-Robotics-0は支配的な性能を示しました:

  • シミュレーションの基準: LIBERO、CALVIN、SimplerEnv の3つの主要なシミュレーションテストで、30種類の比較モデルを下回り、すべてにおいて現在最高の成績(SOTA)を記録しました。

  • 実機の汎化: 双腕ロボットプラットフォーム上で、積み木の分解や柔らかいタオルの折り畳みなど、モデルは非常に高い手と目の協調性と物理的汎化能力を示しました。

オープンソースエコシステム

今回は小米は技術リソースを全面的に公開し、技術ページオープンソースコード、そしてHugging Faceで公開された モデル重み を含んでいます。これらはコミュニティの力を使って、身体知能の境界を共同で推進することを目的としています。

  • 技術ページ: https://xiaomi-robotics-0.github.io
  • オープンソースコード: https://github.com/XiaomiRobotics/Xiaomi-Robotics-0
  • モデル重み: https://huggingface.co/XiaomiRobotics