最近、アリババグループ傘下のアリババレインボーテクノロジーは、身体知能の大規模モデル「LingBot-VLA」および関連する後学習コードを全面的にオープンソース化することを正式に発表しました。この取り組みはロボット分野での大きな進展を示すだけでなく、異なる種類のロボットにおける跨本体移行能力を検証し、スマートロボットの発展をさらに推進しています。

LingBot-VLAは現在、スターサイズ図、ソンリン、ルージュなどの複数のロボットメーカーと互換性があることを確認しています。アリババレインボーテクノロジーが開発した後学習ツールチェーンを通じて、8台のGPU構成で、モデルは1秒間に261サンプルの速度で効率的に学習できます。この学習効率は現在主流のフレームワークであるStarVLAやOpenPIなどよりも1.5倍から2.8倍高く、データと計算リソースのコストを効果的に低下させています。

image.png

膨大な現実世界のデータを基盤として、アリババレインボーテクノロジーは初めてVLAモデルが現実のロボットタスクにおける性能を体系的に研究しました。その結果、事前学習データが増えるにつれて、モデルの下流タスクでの成功確率も継続的に上昇することがわかりました。3000時間のデータから最終的に20000時間までのトレーニングでは、モデルの成功率が常に上昇しており、データ量とモデル性能との良性な関係が示されています。

さらに注目すべき点は、LingBot-VLAが上海交通大学が公開した具身評価ベンチマークGM-100テストにおいて、3つの異なる現実的なロボットプラットフォーム上で、跨本体一般化の平均成功確率が13.0%から15.7%に向上したことです。また、深さ情報を導入した後には、成功確率はさらに17.3%に上昇しました。

また、アリババレインボーテクノロジーは1月27日に「LingBot-Depth」空間認識モデルをリリースしました。このモデルは、現実的なシナリオにおける深度補完に特化しており、ステレオ3Dカメラを使用してRGB-Depthデータを収集および検証します。LingBot-Depthは、ノイズの影響を受けた不完全な深度センサーのデータを高品質な3次元測定結果に変換でき、環境の深度認識と3次元理解能力を大幅に向上させます。