小米は最近、視覚-言語-動作(VLA)大規模モデル「Xiaomi-Robotics-0」の実機後学習プロセスを正式にオープンソース化したことを発表しました。この取り組みは、小米が身体知能分野で重要な一歩を踏み出したことを示しており、ロボットが少量のデータで複雑な操作スキルを迅速に習得できるようにするためのものです。
20時間で「針を通す」技術を習得
事前学習されたベースモデルを基盤として、研究開発チームは約20時間のタスクデータを使用して実機後学習を行い、イヤホンを正確にケースに収める高難度の動作をロボットに習得させました。このプロセスには極めて高い空間認識精度が必要であり、極めて滑らかな表面の微細なずれによる影響も克服しなければなりません。
モデルはミリメートル単位の公差内で対応し、動作のズレをリアルタイムで修正することができます。このような「連続的で滑らかな」実行能力は、Xiaomi-Robotics-0が高精度の組立作業において優れた潜在力を備えていることを証明しています。

オープンソースエコシステムが生産性を進化させる
このモデルを真正に「開封してすぐに使える」ツールにするために、小米はモデルの重みだけでなく、技術報告書とソースコードも公開しました。このフルチェーンのオープンソースモードにより、開発者にとって身体知能分野への参入障壁は大幅に低下しました。
以前から、このモデルは国際的な権威あるプラットフォームで優れたパフォーマンスを発揮しており、グローバルダウンロードランキングの上位にランクインしています。後学習プロセスが公開されることで、世界中の開発者はロボットのセンシングと実行ロジックを共同で最適化し、AIロボットが現実の生産活動や生活に浸透するスピードを加速できます。
プロジェクトサイト: https://robotics.xiaomi.com/xiaomi-robotics-0.html
オープンソースコード: https://github.com/XiaomiRobotics/Xiaomi-Robotics-0
