近日,字節跳動Seed團隊正式推出全新Vision-Language-Action Model(VLA)模型GR-3,該模型在機器人操作領域展現出突破性能力,不僅能理解包含抽象概念的語言指令,還可精準操作柔性物體,並具備快速遷移至新任務、認識新物體的泛化能力。這一成果被視爲邁向通用機器人“大腦”的重要進展。

傳統機器人操作模型往往依賴大量機器人軌跡數據進行訓練,導致遷移至新任務時成本高、效率低。GR-3則通過少量人類數據即可實現高效微調,其核心突破在於採用Mixture-of-Transformers(MoT)網絡結構,將視覺-語言模塊與動作生成模塊整合爲40億參數的端到端模型。其中,動作生成模塊通過Diffusion Transformer(DiT)結合Flow-Matching技術生成動作,並引入歸一化的RMSNorm設計,顯著增強了動態指令跟隨能力。這一結構使GR-3能像人類一樣,直接根據攝像頭畫面與語言指令規劃連續動作,例如在聽到“收拾餐桌”後,自動完成“打包剩菜→收拾餐具→倒垃圾”的全流程。

微信截圖_20250722140449.png

訓練數據層面,GR-3突破了單一數據源的侷限,通過三合一數據訓練法實現能力躍升:其一,利用遙操作機器人收集的高質量真機數據,確保基礎操作能力;其二,通過用戶授權的VR設備採集人類軌跡數據,使新任務學習效率提升近一倍(450條/小時 vs 傳統250條/小時);其三,融合公開可用的圖文數據,讓模型理解“大”“小”“左右”等抽象概念,並識別未見過物體的特徵。這種多樣性數據融合策略,使GR-3在未見過的物體抓取任務中成功率較基準模型提升17.8%,僅需10條人類軌跡數據即可將新物體操作成功率從60%提升至80%以上。

爲驗證模型性能,團隊在通用拾取放置、長程餐桌清理、柔性衣物操作三大任務中展開系統性測試。在通用拾取放置任務中,GR-3在訓練過的場景裏指令遵循率和成功率分別達98.1%和96.3%,在新環境(臥室書桌、超市櫃檯等)中性能幾乎無衰減,且能精準處理“把雪碧旁邊的可樂放進盤子”等涉及空間關係的複雜指令。長程餐桌清理任務中,GR-3可自主完成多步驟操作,平均完成度超95%,並能嚴格跟隨分步指令,面對無效指令時準確判斷不動作。柔性衣物操作測試顯示,GR-3在掛衣服任務中完成度達86.7%,即使面對短袖等未見過的衣物款式或混亂擺放狀態,仍能穩定完成任務。

與硬件的協同創新是GR-3的另一亮點。團隊研發的通用雙臂移動機器人ByteMini作爲載體,配備22個全身自由度與獨特手腕球角設計,結合全身運動控制(WBC)系統,實現狹小空間內的精細操作與平滑軌跡生成。例如,抓取紙杯時能自動調整力度避免捏碎,機械臂可像人類手腕般靈活轉動。多攝像頭佈局(2個手腕攝像頭看細節、頭部攝像頭看全局)則確保“眼觀六路”的感知能力。

儘管GR-3在泛化性與操作精度上已超越業界此前可測試的VLA頭部模型π0,但團隊仍計劃通過擴大模型規模、增加訓練數據量(如更多物體的視覺語言數據、複雜任務機器人數據)進一步提升泛化能力。同時,引入強化學習(RL)方法突破模仿學習侷限,使機器人在遇到物體滑落等突發情況時能自主調整策略,增強抗干擾能力。

字節跳動Seed團隊表示,GR-3的研發旨在解決傳統機器人“聽不懂抽象指令”“不適應環境變化”“做不好長程任務”的三大瓶頸。未來,團隊將持續探索大模型與機器人技術的深度融合,推動通用機器人“大腦”走進日常生活,成爲幫助人類處理各類事務的智能助手。這一成果不僅爲機器人學習領域提供了新範式,更讓“機器人全能助手”的願景更近一步。

ArXiv:https://arxiv.org/abs/2507.15493

項目主頁:https://seed.bytedance.com/GR3