近日,阿里巴巴 Qwen 團隊推出了兩款革命性的產品 ——Mobile-Agent-v3和 GUI-Owl,這些工具旨在解決圖形用戶界面(GUI)自動化中的一系列挑戰。

現代計算設備普遍採用圖形用戶界面,然而,以往的自動化方法往往依賴於複雜的腳本和手工規則,效果並不理想。GUI-Owl 作爲一種新型的多模態代理模型,構建於 Qwen2.5-VL 之上,並在大量 GUI 交互數據上進行了後續訓練,旨在提升任務理解和執行的能力。

image.png

GUI-Owl 的設計初衷是處理真實世界中 GUI 環境的多樣性和動態性。它通過整合感知、推理、規劃和執行能力,提供了一個統一的政策網絡。這種設計使得它能夠在複雜的任務中進行多輪決策,同時實現清晰的推理過程,適應實際使用中的變化。

爲了確保高質量的數據支持,團隊開發了一個自我演化的數據生產管道。該管道生成真實應用程序導航流程,並通過人類註釋進行驗證,確保了生成數據的真實性和有效性。此外,團隊還使用了多種數據合成策略,以豐富模型的學習內容,使其在任務執行時具備更強的適應性和靈活性。

image.png

Mobile-Agent-v3框架則側重於多代理的協作,它將複雜任務分解爲子目標,通過動態更新計劃來處理執行反饋。框架中的四個專業代理 —— 經理代理、工作代理、反思代理和筆記代理 —— 各司其職,提升了任務執行的效率和成功率。經過多輪的測試和評估,GUI-Owl 和 Mobile-Agent-v3在多個 GUI 自動化基準上表現優異,特別是在跨平臺的任務完成能力方面。

這些創新工具的發佈標誌着阿里巴巴在通用 GUI 自動化領域的一次重大進展,未來將爲更廣泛的應用場景提供更強大的技術支持。

論文:https://arxiv.org/abs/2508.15144

github:https://github.com/X-PLUG/MobileAgent

劃重點:

🌟 GUI-Owl 是阿里巴巴推出的多模態代理模型,集成感知、推理和執行能力,適應複雜 GUI 環境。

🤖 Mobile-Agent-v3框架實現多代理協作,通過動態更新計劃提升任務執行效率。

📊 這兩款產品在 GUI 自動化基準測試中表現出色,標誌着阿里巴巴在自動化領域的重要突破。