螞蟻集團近日正式發佈了名爲 LingBot-VLA 的視覺-語言-動作(VLA)基礎模型。 該模型專注於現實世界中的機器人複雜操控,通過海量數據訓練,實現了在不同形態機器人上的通用操控能力,標誌着具身智能領域取得又一重要進展。

爲了構建這一強大的模型,研發團隊在 AgiBot G1、AgileX 等9種主流雙臂機器人上採集了約2萬小時的真實遙操作數據。 這些數據涵蓋了豐富的動作序列,並由 Qwen3-VL 自動生成詳細的語言指令,形成了一套高質量的預訓練數據集。

image.png

LingBot-VLA 採用了創新的“混合 Transformer”架構。 它以 Qwen2.5-VL 作爲多模態主幹,能夠同時處理多視角圖像和自然語言指令。 與此同時,模型內置的“動作專家”分支會實時結合機器人的自身狀態,通過條件流匹配技術,輸出平滑且連續的控制軌跡,確保了雙臂協作的精準度。

此外,針對傳統模型在空間深度感知上的弱點,螞蟻集團引入了 LingBot-Depth 空間感知模型。 通過特徵蒸餾技術,LingBot-VLA 即使在傳感器數據缺失的情況下,也能展現出卓越的3D 空間推理能力,在疊放、插入、摺疊等精細化任務中表現尤爲出色。

image.png

在包含100項挑戰任務的 GM-100現實世界基準測試中,帶深度感知版本的 LingBot-VLA 成功率達到17.30%,顯著優於 π0.5和 GR00T N1.6等同類模型。 研究還發現,該模型具有極高的數據效率,僅需約80條特定任務的演示數據,即可快速適配新機器人。

目前,螞蟻集團已將 LingBot-VLA 的全套訓練工具包和模型權重正式開源。 該工具包針對大規模 GPU 集羣進行了優化,訓練吞吐量比現有主流框架提升了1.5至2.8倍。 這一舉措將極大降低機器人大模型的開發門檻,推動具身智能技術向更多實際應用場景滲透。

論文:https://arxiv.org/pdf/2601.18692