宇樹宣佈正式開源 UnifoLM-VLA-0大模型。作爲 UnifoLM 系列中專門針對通用人形機器人操作設計的視覺-語言-動作(VLA)模型,它標誌着機器人大腦從單純的“圖文理解”向具備“物理常識”的具身智能跨出了關鍵一步。

QQ20260130-093721.jpg

技術突破:從感知到行動的深度融合

UnifoLM-VLA-0旨在打破傳統視覺語言模型(VLM)在物理交互中的侷限性:

具身大腦進化:通過在機器人操作數據上的持續預訓練,使模型能夠理解物理世界的交互規律,而非僅僅停留在語義層面。

空間細節對齊:模型深度融合了文本指令與2D/3D 空間細節,顯著增強了在複雜環境下的空間感知與位置推理能力。

動力學約束:集成了動作分塊預測及前向/逆向動力學約束,實現了對長時序動作序列的統一建模。

QQ20260130-093737.jpg

研發架構:基於 Qwen2.5-VL 的二次進化

宇樹利用系統化清洗後的多任務數據集對模型進行了打磨:

核心基座:基於 Qwen2.5-VL-7B 開源模型構建。

高效訓練:僅利用約340小時的真機數據進行離散動作預測訓練,便實現了高質量的任務泛化。

性能評估:在空間理解基準測試中,其表現不僅遠超基座模型,在特定模式下甚至可比肩 Gemini-Robotics-ER1.5。

QQ20260130-093746.jpg

實戰表現:單一策略搞定12類複雜任務

在宇樹 G1人形機器人平臺上的驗證結果令人矚目:

多任務通用性:該模型在同一策略網絡(checkpoint)下,能夠穩定完成包括物體抓取、放置等在內的12項複雜操作任務。

強大的魯棒性:真機實驗表明,即使在面對外部擾動時,機器人依然能保持良好的執行穩定性與抗干擾能力。

目前,宇樹已在GitHub及項目主頁完整公開了模型代碼與相關資料,旨在助力全球開發者共同推動通用人形機器人的商業化落地進程。