最近、アリババ・レインボーテクノロジーは香港科技大学などの大学と共同で行った研究論文「Causal World Modeling for Robot Control(ロボット制御のための因果的世界モデル)」が、国際的なロボティクス分野の頂点となる学術会議 Robotics: Science and Systems(RSS)2026 に採用されました。

RSS はロボティクス分野において世界的に認められた最高レベルの学術会議の一つであり、長年にわたりロボティクス学習、制御、認識、計画、システムなどの最先端分野を注目してきました。論文が RSS に掲載されることにより、その研究は学術的な革新性を持ち、また国際的なロボティクス研究コミュニティから高い評価を受けたことを意味します。

この研究の中心的な目的は、ロボットが単に動作を行うだけでなく、行動の前に世界がどのように変化するかを予測することです。本論文では、ロボット制御向けの因果的世界モデルの枠組みを提案し、それを世界初のオープンソースの自己回帰型ビデオ-アクション世界モデルである LingBot-VA として実装しました。このモデルは、ロボットがタスクを遂行する過程で環境の変化を継続的に予測し、予測結果に基づいて次のアクション命令を生成することができ、ロボットが人間のように「見ながら判断し、行動する」能力を持つようになります。

アリババ・レインボーテクノロジーにとって、今回の論文が RSS2026 に選ばれたことは、「世界モデル駆動のロボット制御」の方向での探求が国際的なトップレベルの学術プラットフォームから認知されたことを示しており、LingBot-VA が具身的知能の基本モデルとしての技術的価値をさらに確認したものです。今後、このアプローチは、ロボットが指示に従って動作するのではなく、より強力な環境理解、タスクの汎用性、自主的な意思決定に向かう可能性があります。

image.png

ロボットにとって真正の難しさは、単に動作を遂行することではなく、その動作がもたらす変化を理解することです。例えば、カップを拾った後のテーブルの状態や、引き出しを押し進めた後の物体の位置の変化などです。LingBot-VA の核心的な突破点は、このような未来の変化を予測する能力をロボット制御に導入することです。つまり、ロボットはまず、世界がどのようになるかを予測し、その予測結果に基づいてどう行動すべきかを決定するのです。

これは、論文が「因果的世界モデル」というキーワードを強調する理由でもあります。現実の物理的な世界は時間とともに進むため、ロボットが未来を予測するときにも、現実の時間順序に従って段階的に推移しなければなりません。LingBot-VA はこの因果関係をモデル構造に組み込み、各ステップの予測は過去の観測とアクションのみに基づき、時間順に展開されます。これにより、モデルが出力するのは単なる未来を示す映像ではなく、ロボットの制御決定に使える因果的な軌跡となります。これにより、モデルはより強固な長期記憶能力を持ち、長時間のシーケンスや複数ステップの実際のタスクを遂行するのに特に重要になります。

技術的には、LingBot-VA は Mixture-of-Transformers(MoT)アーキテクチャを使用し、ビデオ予測とアクション生成を同じ自己回帰型拡散フレームワークに統合しています。また、モデルはリアルタイムで環境フィードバックを受け取り、誤差の蓄積を減らすためのクローズドループ推論メカニズムも設計されています。

論文では、シミュレーションベースと実機タスクの両方で LingBot-VA の性能を体系的に検証しました。RoboTwin2.0の50の二腕操作タスクにおいて、EasyおよびHard設定でそれぞれ平均成功率が92.0%と91.1%に達しました。LIBEROベンチマークでは98.5%の成功率を達成しました。

実世界のテストでは、長時間かつ高精度、そして柔軟性と関節部の物の操作という3つの大きな課題の6つの困難な挑戦に直面しました。LingBot-VA はわずか50個の実際の模範データだけで適応でき、業界の基準π0.5よりも全体的な成功率が20ポイント以上向上し、優れたデータ効率と汎用性を示しました。

LingBot-VA は今年の早い段階でモデル重みとトレーニングおよび推論コードが公開されました。研究者や開発者は Hugging Face と GitHub からアクセスしてダウンロードできます。

論文リンク: https://arxiv.org/abs/2601.21998

プロジェクトページ: https://technology.robbyant.com/lingbot-va