アリババグループはこのほど、LingBot-VLAという視覚・言語・動作(VLA)の基礎モデルを正式に公開しました。 このモデルは現実世界におけるロボットの複雑な操作に特化しており、膨大なデータでトレーニングすることで、さまざまな形態のロボットにおいて汎用的な操作能力を実現し、身体知能分野での重要な進展を示しています。
この強力なモデルを構築するために、研究チームはAgiBot G1、AgileXなどの9種類の主流な二腕ロボットで約2万時間のリアルな遠隔操作データを収集しました。 このデータには豊富なアクションシーケンスが含まれており、Qwen3-VLによって詳細な言語指令が自動生成され、高品質な事前トレーニングデータセットが作成されました。

LingBot-VLAは革新的な「ハイブリッドTransformer」アーキテクチャを採用しています。 これにより、Qwen2.5-VLをマルチモーダルの主幹として使用し、複数の視点画像と自然言語指令を同時に処理できます。 一方、モデル内に組み込まれた「アクションエキスパート」のサブシステムは、ロボットの自身の状態をリアルタイムで考慮し、条件フローマッチング技術を通じて滑らかで連続的な制御軌跡を出力し、二腕協働の精度を確保します。
また、従来モデルの空間深度認識の弱さに対応するため、アリババグループはLingBot-Depthという空間認識モデルを導入しました。 特徴蒸留技術により、LingBot-VLAはセンサーのデータが欠如している場合でも優れた3D空間推論能力を発揮し、積み重ねや挿入、折り畳みなどの細かいタスクにおいて特に優れた性能を発揮します。

100のチャレンジタスクを含むGM-100の現実世界ベースラインテストにおいて、深度認識機能を持つLingBot-VLAの成功確率は17.30%に達し、π0.5やGR00T N1.6などの同様のモデルよりも顕著に優れています。 また、このモデルは非常に高いデータ効率を持ち、わずか80件の特定タスクのデモデータで新しいロボットへの迅速な適応が可能です。
現在、アリババグループはLingBot-VLAのすべてのトレーニングツールキットおよびモデルの重みを正式にオープンソース化しました。 このツールキットは大規模なGPUクラスターに対して最適化されており、トレーニングのスループットは既存の主流フレームワークより1.5〜2.8倍向上しています。 この取り組みは、ロボットAIモデルの開発コストを大幅に低下させ、身体知能技術をより多くの実際の応用場面へ広げる助けとなります。
論文:https://arxiv.org/pdf/2601.18692
