エージェント型知能技術が研究室から現実世界へと進化する重要な節目において、ロボットが指示を正確に理解し、複雑な環境で自律的に作業を行うことが業界の焦点となっています。6月16日、アリババは千問エージェント型知能大規模モデル「Qwen-Robot」シリーズを正式に発表しました。このシリーズは、自然言語を理解し、3次元環境を感知し、物理法則を掌握する「汎用ベース」を提供し、さまざまなロボットに適用可能です。
Qwen-Robotシリーズには3つの主要なモデルが含まれており、それぞれが単独でタスクを実行できるだけでなく、協働して運用することもできます。これにより、千問ファミリー初の完全なエージェント型知能マトリクスが構築されました。

まず、中心的な操作を担当する「Qwen-RobotManip」です。従来のモデルではロボットプラットフォームの変更によって性能が大幅に低下するという課題がありました。このモデルは統一された動作表現を採用し、膨大なオープンソースデータを用いて38,000時間以上の事前学習を行いました。第三者の公式評価では、その異なるバージョンはタスク成功率の上位2位を占め、基礎的な水栓の開閉から二本腕でのポテトチップの逆さ投げといった複雑な高難度タスクにも対応する能力を示しました。
次に、「Qwen-RobotNav」はロボットに「道を覚える」ことと「配達を行う」能力を与えるモデルです。このモデルはタスク指示の理解、目標探索および自動運転などの5つのナビゲーション機能を統一されたフレームワーク内で統合しています。革新的な「タスクに適応する観察メカニズム」により、ロボットは硬直な記憶戦略から解放され、「歩きながら見ながら計画する」柔軟な行動が可能となり、複雑な未知空間で効率的に物を探し出すことができます。
最後に、「Qwen-RobotWorld」モデルはロボットの「思考」の深さを向上させるものです。これは物理的世界のモデルであり、アスリートが動作を予演するように、次の瞬間の物理状態や動作を推論することができます。これにより、トレーニングデータ不足の壁を効果的に補うだけでなく、ロボットが動作を行う前に軌道を予測することで、物理的操作の絶対的な正確性を確保することが可能です。
