在具身智能技術從實驗室邁向真實世界的關鍵節點,機器人如何精準理解指令並在複雜環境中自主作業,成爲了行業攻克的焦點。6月16日,阿里巴巴正式推出千問具身智能大模型Qwen-Robot系列,爲各類機器人提供了一個能夠理解自然語言、感知三維環境並掌握物理規律的“通用底座”。

Qwen-Robot系列包含三款核心模型,它們既能獨立執行任務,也可以協同運轉,構成了千問家族首個完整的具身智能矩陣。

image.png

首先是負責核心操作的Qwen-RobotManip。爲了解決傳統模型在更換機器人平臺時性能大幅下滑的痛點,該模型採用了統一的動作表徵,並通過海量開源語料完成了超過38000小時的預訓練。在第三方權威測評中,其不同版本不僅包攬了任務成功率的前兩名,更展現出從基礎擰水龍頭到雙臂倒薯條等複雜高難度任務的突破能力。

其次是賦予機器人“認路”與“跑腿”能力的Qwen-RobotNav。該模型將任務指令理解、目標搜索及自動駕駛等五大導航功能統一在同一框架下。創新性的“任務自適應觀察機制”讓機器人徹底擺脫了僵化的記憶策略,能夠靈活地“邊走、邊看、邊規劃”,在複雜的未知空間中高效完成尋物任務。

最後是提升機器人“思維”深度的Qwen-RobotWorld模型。這是一款物理世界模型,它能像運動員預演動作一樣,對下一時刻的物理狀態和動作進行推演。這不僅能有效彌補訓練數據不足的瓶頸,更能讓機器人在執行動作前完成軌跡預演,從而確保物理操作的絕對精準。

通過這三大模型的協同,具身智能系統得以將視覺感知、語言理解與動作決策深度融合。隨着這一系列模型的發佈,機器人執行任務的泛化能力將得到顯著增強,這也意味着機器人走入真實生活場景的步伐正進一步加快。