阿里巴巴 Qwen 團隊發佈下一代 GUI 自動化框架 Mobile-Agent-v3 和 GUI-Owl

近日，阿里巴巴 Qwen 團隊推出了兩款革命性的產品 ——Mobile-Agent-v3和 GUI-Owl，這些工具旨在解決圖形用戶界面（GUI）自動化中的一系列挑戰。

現代計算設備普遍採用圖形用戶界面，然而，以往的自動化方法往往依賴於複雜的腳本和手工規則，效果並不理想。GUI-Owl 作爲一種新型的多模態代理模型，構建於 Qwen2.5-VL 之上，並在大量 GUI 交互數據上進行了後續訓練，旨在提升任務理解和執行的能力。

GUI-Owl 的設計初衷是處理真實世界中 GUI 環境的多樣性和動態性。它通過整合感知、推理、規劃和執行能力，提供了一個統一的政策網絡。這種設計使得它能夠在複雜的任務中進行多輪決策，同時實現清晰的推理過程，適應實際使用中的變化。

爲了確保高質量的數據支持，團隊開發了一個自我演化的數據生產管道。該管道生成真實應用程序導航流程，並通過人類註釋進行驗證，確保了生成數據的真實性和有效性。此外，團隊還使用了多種數據合成策略，以豐富模型的學習內容，使其在任務執行時具備更強的適應性和靈活性。

Mobile-Agent-v3框架則側重於多代理的協作，它將複雜任務分解爲子目標，通過動態更新計劃來處理執行反饋。框架中的四個專業代理 —— 經理代理、工作代理、反思代理和筆記代理 —— 各司其職，提升了任務執行的效率和成功率。經過多輪的測試和評估，GUI-Owl 和 Mobile-Agent-v3在多個 GUI 自動化基準上表現優異，特別是在跨平臺的任務完成能力方面。

這些創新工具的發佈標誌着阿里巴巴在通用 GUI 自動化領域的一次重大進展，未來將爲更廣泛的應用場景提供更強大的技術支持。

論文:https://arxiv.org/abs/2508.15144

github:https://github.com/X-PLUG/MobileAgent

劃重點:
🌟 GUI-Owl 是阿里巴巴推出的多模態代理模型，集成感知、推理和執行能力，適應複雜 GUI 環境。
🤖 Mobile-Agent-v3框架實現多代理協作，通過動態更新計劃提升任務執行效率。
📊 這兩款產品在 GUI 自動化基準測試中表現出色，標誌着阿里巴巴在自動化領域的重要突破。

白宮緊急撤銷禁令！美網絡安全局啓用 AI “神話”模型審計政府代碼

美國網絡安全局（CISA）正利用Anthropic公司的“神話”AI模型，祕密對政府軟件代碼進行全面審計，以防範潛在安全威脅。此項工作由內部攻擊面評估團隊負責，該團隊專爲各機構開展數字安全評估。通過掃描代碼倉庫，模型已成功發現大量可能被外部利用的安全漏洞。

阿里巴巴 Qwen 團隊發佈下一代 GUI 自動化框架 Mobile-Agent-v3 和 GUI-Owl

相關推薦

Claude Sonnet 5 “叛逆”上線：用戶投訴其頻繁反駁、說教成風

機器人視覺迎來新突破!螞蟻靈波空間感知模型LingBot-Depth 2.0正式發佈

行業震動：Meta被曝誘導競品AI測試極端心理敏感話題

白宮緊急撤銷禁令！美網絡安全局啓用 AI “神話”模型審計政府代碼

全新蛻變！xAI 正式更名爲 SpaceXAI，馬斯克完成商業版圖大整合

​阿里巴巴 Qwen 團隊發佈下一代 GUI 自動化框架 Mobile-Agent-v3 和 GUI-Owl

相關推薦

Claude Sonnet 5 “叛逆”上線：用戶投訴其頻繁反駁、說教成風

機器人視覺迎來新突破!螞蟻靈波空間感知模型LingBot-Depth 2.0正式發佈

行業震動：Meta被曝誘導競品AI測試極端心理敏感話題

白宮緊急撤銷禁令！美網絡安全局啓用 AI “神話”模型審計政府代碼

全新蛻變！xAI 正式更名爲 SpaceXAI，馬斯克完成商業版圖大整合

阿里巴巴 Qwen 團隊發佈下一代 GUI 自動化框架 Mobile-Agent-v3 和 GUI-Owl