今日,X-PLUG 團隊在 GitHub 上正式發佈了其最新項目 Mobile-Agent-v3,這是一款基於 GUI-Owl 的跨平臺多代理框架。Mobile-Agent-v3具備強大的規劃、進度管理、反思和記憶能力,旨在提升用戶的 GUI 自動化體驗。

GUI-Owl 作爲 Mobile-Agent-v3的基礎模型,融合了感知、基礎、推理、規劃和執行等多項功能,是一款原生的端到端多模態代理。它的設計使得跨平臺交互和多回合決策變得更加流暢,具有明確的中間推理能力。這意味着用戶在進行多任務操作時,可以獲得更爲穩定的性能表現。

QQ20250825-112403.png

X-PLUG 團隊特別提到,Mobile-Agent-v3不僅在功能上進行了優化,同時還加強了異常處理和反思能力,確保在面對彈窗和廣告等干擾時依然能夠保持高效的操作。此外,Mobile-Agent-v3的關鍵信息記錄功能,使得跨應用任務的執行變得更加便捷,極大地方便了用戶的日常操作。

同時,Mobile-Agent 的多個前身版本,如 Mobile-Agent-v2和 PC-Agent,分別在 NeurIPS2024和 ICLR2025的會議上獲得接受,顯示出該項目在學術研究領域的廣泛影響力。

值得一提的是,X-PLUG 團隊還提供了豐富的資源支持,包括技術報告、演示視頻和代碼庫,使得開發者和研究人員能夠更深入地探索 Mobile-Agent 的潛力。通過這些資源,用戶不僅可以體驗到 Mobile-Agent 的強大功能,還能夠參與到其後續的開發和優化中。

地址:https://github.com/X-PLUG/MobileAgent