小米近期宣佈正式開源其視覺-語言-動作(VLA)大模型 Xiaomi-Robotics-0的真機後訓練全流程。這一舉措標誌着小米在具身智能領域邁出重要一步,旨在讓機器人能夠更快速地通過少量數據掌握複雜的操作技能。

二十小時練就“穿針引線”

基於預訓練基座,研發團隊僅利用約20小時的任務數據進行真機後訓練,便讓機器人掌握了將耳機精準收納進盒的高難度動作。該過程不僅要求極高的空間感知精度,還需克服極低表面粗糙度帶來的位移干擾。

模型必須在亞毫米級的公差範圍內完成對位,並能實時修正動作偏差。這種“連續絲滑”的執行能力,證明了 Xiaomi-Robotics-0在處理高精度裝配任務時的卓越潛力。

image.png

開源生態推動生產力進化

爲了讓該模型真正成爲“開箱即用”的工具,小米此次不僅開放了模型權重,還公佈了技術報告與源代碼。這種全鏈條的開源模式,極大降低了開發者進入具身智能領域的門檻。

此前,該模型在國際權威平臺上已表現出色,位列全球下載榜前列。隨着後訓練流程的公開,全球開發者將能共同優化機器人的感知與執行邏輯,加速 AI 機器人走進現實生產生活的進程。

  • 項目網站:https://robotics.xiaomi.com/xiaomi-robotics-0.html

  • 開源代碼:https://github.com/XiaomiRobotics/Xiaomi-Robotics-0