繼昨日開源高精度空間感知模型 LingBot-Depth後,螞蟻集團旗下靈波科技今日宣佈全面開源具身大模型 LingBot-VLA。作爲一款面向真實機器人操作場景的“智能基座”,LingBot-VLA 實現了跨本體、跨任務泛化能力,並大幅降低後訓練成本,推動“一腦多機”走向工程化落地。
在上海交通大學開源的具身評測基準 GM-100(包含100項真實操作任務)測試中,LingBot-VLA 在3個不同的真實機器人平臺上,跨本體泛化平均成功率相較於 Pi0.5的13.0% 提升至15.7%(w/o Depth)。引入深度信息(w/ Depth)後,空間感知能力增強,平均成功率進一步攀升至17.3%,刷新了真機評測的成功率紀錄,驗證了其在真實場景中的性能優勢。

(圖說:在 GM-100真機評測中,LingBot-VLA 跨本體泛化性能超越 Pi0.5)
在 RoboTwin2.0仿真基準(包含50項任務)評測中,面對高強度的環境隨機化干擾(如光照、雜物、高度擾動),LingBot-VLA 憑藉獨特的可學習查詢對齊機制,高度融合深度信息,操作成功率比 Pi0.5提升了9.92%,實現了從虛擬仿真到真實落地的全方位性能領跑。

(圖說:在 RoboTwin2.0仿真評測中,LingBot-VLA 跨任務泛化性能超越 Pi0.5)
長期以來,由於本體差異、任務差異、環境差異等,具身智能模型落地面臨嚴重的泛化性挑戰。開發者往往需要針對不同硬件和不同任務重複採集大量數據進行後訓練,直接擡高了落地成本,也使行業難以形成可規模化複製的交付路徑。
針對上述問題,LingBot-VLA 基於20000+ 小時大規模真機數據進行預訓練,覆蓋了9 種主流雙臂機器人構型(包括 AgileX,Galaxea R1Pro、R1Lite 、AgiBot G1等),從而讓同一個“大腦”可以無縫遷移至不同構型的機器人,並在任務變化、環境變化時保持可用的成功率與魯棒性。與高精度空間感知模型 LingBot-Depth配合,LingBot-VLA 能獲得更高質量的深度信息表徵,通過“視力”的升級,真正做到“看得更清楚、做的更明白”。
LingBot-VLA 憑藉紮實的基座能力,大幅降低了下游任務的適配門檻,僅需80條演示數據即可實現高質量的任務遷移。此外,配合底層代碼庫的深度優化,其訓練效率達到 StarVLA、OpenPI 等主流框架的 1.5~2.8倍,實現了數據與算力成本的雙重降低。
此次開源不僅提供了模型權重,還同步開放了包含數據處理、高效微調及自動化評估在內的全套代碼庫。這一舉措大幅壓縮了模型訓練週期,降低了商業化落地的算力與時間門檻,助力開發者以更低成本快速適配自有場景,模型實用性大幅提升。
螞蟻靈波科技CEO朱興表示,“具身智能要想大規模應用,依賴高效的具身基座模型,這直接決定了是否可用以及能否用得起。我們希望通過LingBot-VLA的開源,積極探索具身智能上限,推進具身智能研發早日進入可複用、可驗證、可規模化落地的新階段,讓AI加速在物理世界滲透普及,更早的服務每一個人。”
LingBot-VLA是螞蟻開源的第一款具身智能基座模型,也是螞蟻在AGI研發上又一探索性成果。朱興介紹,螞蟻集團堅定以開源開放模式探索 AGI,爲此打造 InclusionAI,構建了涵蓋基礎模型、多模態、推理、新型架構及具身智能的完整技術體系與開源生態。LingBot-VLA的開源,正是InclusionAI的關鍵實踐。“期待攜手全球開發者,加速具身智能技術的迭代與規模化應用,助力 AGI 更快到來。”
據悉,在數據採集階段,LingBot-VLA 使用了星海圖、鬆靈的硬件平臺,樂聚、庫帕思、國家地方共建人形機器人創新中心、北京人形機器人創新中心有限公司、博登智能、睿爾曼也在模型預訓練階段提供了高質量數據支持。目前,LingBot-VLA 已與星海圖、鬆靈、樂聚等廠商完成適配,驗證了模型在不同構型機器人上的跨本體遷移能力。
