6月16日,阿里巴巴正式發佈千問具身智能大模型Qwen-Robot系列,該系列由VLA操作模型Qwen-RobotManip、VLN移動模型Qwen-RobotNav以及世界模型Qwen-RobotWorld三大核心矩陣組成。這一戰略動作標誌着大廠在具身智能基礎模型領域的佈局進一步深化,實現了機器人操控、導航與物理規律推理的協同運轉。

QQ20260616-141628.jpg

針對傳統VLA模型換硬件、換場景後遷移能力不足的行業痛點,Qwen-RobotManip引入了一套80維的統一動作表徵,爲不同形態的硬件定義了通用的“肢體語言”,使其在不同設備中僅需數步反饋即可自動適配。負責跑腿認路的VLN模型Qwen-RobotNav則基於Qwen-VL構建,首次將語言指令導航、目標搜索、自動駕駛等五大任務族統一到單一框架中,消除了複雜任務下的模型切換成本。

作爲思考大腦的Qwen-RobotWorld則賦予系統物理世界的推理能力,能夠預測並模擬下一步的動作與狀態。當前具身智能正邁入從單一場景向通用泛化的關鍵節點,阿里此次三模齊發,通過技術架構的解耦與多模態能力的融合,有望加速異構機器人通用化部署的落地進程。