最近、ビットテックのSeedチームは新規なVision-Language-Action Model(VLA)モデルGR-3を正式にリリースしました。このモデルはロボット操作分野で画期的な能力を示しており、抽象的な概念を含む言語指令を理解するだけでなく、柔らかい物体を正確に操作することができ、新しいタスクや新しいオブジェクトへの一般化能力も備えています。この成果は、汎用ロボット「脳」への重要な進展と見なされています。
従来のロボット操作モデルは多くのロボット軌跡データに依存して訓練されるため、新しいタスクへの移行にはコストが高く効率が悪いです。しかし、GR-3は少量の人間データで効率的な微調整が可能です。その核心的な突破点は、Mixture-of-Transformers(MoT)ネットワーク構造を採用し、視覚・言語モジュールと動作生成モジュールを40億パラメータのエンドツーエンドモデルに統合したことです。その中で、動作生成モジュールはDiffusion Transformer(DiT)とFlow-Matching技術を組み合わせて動作を生成し、正規化されたRMSNorm設計を取り入れることで、動的指示の追従能力が顕著に向上しています。この構造により、GR-3は人間のようにカメラ画像と言語指示に基づいて連続的な動作を計画することができます。例えば、「食卓を片付ける」という指示を受けると、自動的に「残り物を詰める→食器を片付ける→ゴミを捨てる」の全工程を完了します。
トレーニングデータの面では、GR-3は単一のデータソースの制限を乗り越え、三つのデータを統合したトレーニング法によって能力を飛躍的に向上させました。第一に、遠隔操作ロボットから収集された高品質な本物データを使用し、基本的な操作能力を確保します。第二に、ユーザーの許可を得たVRデバイスから人間の軌跡データを収集し、新規タスク学習効率を約2倍に向上させます(450件/時間 vs 伝統的な250件/時間)。第三に、公開可能な画像とテキストデータを融合し、モデルに「大きい」「小さい」「左」「右」などの抽象的概念を理解させ、見たことのないオブジェクトの特徴を識別させます。このような多様なデータ統合戦略により、GR-3は見たことのないオブジェクトの取り上げタスクにおいてベースモデルより17.8%高い成功率を達成し、わずか10件の人間の軌跡データで新規オブジェクトの操作成功率を60%から80%以上に向上させることができます。
モデルの性能を検証するために、チームは一般的な拾い上げ配置、長距離の食卓清掃、柔らかい衣類の操作という3つのタスクで体系的なテストを行いました。一般的な拾い上げ配置タスクでは、トレーニング済みの環境において指示の遵守率と成功率はそれぞれ98.1%と96.3%であり、新しい環境(寝室の机、スーパーマーケットのカウンターなど)でも性能はほぼ低下せず、空間関係を含む複雑な指示「サイダーの横にあるコーラを皿に入れる」なども正確に処理できます。長距離の食卓清掃タスクでは、GR-3は複数ステップの操作を自主的に行い、平均的な完成度は95%を超え、ステップごとの指示に厳密に対応し、無効な指示を受けた場合に正確に動作しないことを判断します。柔らかい衣類の操作テストでは、GR-3は服を吊るすタスクにおいて完成度は86.7%であり、短袖のような見たことのない服のスタイルや混乱した配置状態であっても安定してタスクを完了できます。
ハードウェアとの協働イノベーションはGR-3のもう一つの特徴です。チームが開発した汎用二本腕移動ロボットByteMiniをキャリアとして使用し、全身22自由度とユニークな手首のボール角デザインを備え、全身運動制御(WBC)システムと組み合わせることで、狭い空間での精密操作と滑らかな軌跡生成を実現します。例えば、紙コップを掴むときには力加減を自動調整し、潰れないようにします。機械アームは人間の手首のように柔軟に回転できます。2つの手首カメラで細部を見たり、頭部カメラで全体を見たりするような多カメラ配置により、「六方を見通す」感知能力を確保します。
GR-3は現在、業界でテスト可能なVLAのトップモデルπ0よりも汎化性と操作精度で優れているものの、チームはモデルの規模を拡大し、トレーニングデータ量を増やす(例えば、より多くのオブジェクトの視覚言語データや複雑なタスクのロボットデータ)ことでさらに汎化能力を向上させる計画です。また、強化学習(RL)方法を導入することで、模倣学習の限界を突破し、オブジェクトが落ちるなどの突発的な状況に対してロボットが独自の戦略を調整できるようにし、耐障害性を強化する予定です。
ビットテックのSeedチームは、GR-3の開発が従来のロボットの「抽象的な指示が理解できない」「環境変化に適応できない」「長期的なタスクができにくい」という3つの課題を解決することを目的としています。今後、チームは大規模モデルとロボット技術の深く融合を継続的に探求し、汎用ロボット「脳」を日常生活に広げ、人類が様々な業務を処理するためのスマートアシスタントとなることを目指します。この成果はロボット学習分野に新たなパターンを提供し、「ロボットの全能アシスタント」のビジョンをさらに現実に近づけます。
ArXiv:https://arxiv.org/abs/2507.15493
プロジェクトページ:https://seed.bytedance.com/GR3