智譜技術團隊最近推出了一個基於GLM技術團隊研究成果的新產品——AutoGLM,這是一個智能體(Agent),能夠模擬人類操作手機,執行各種任務。AutoGLM的推出標誌着人工智能在“Phone Use”領域的進步,使得AI的應用更加貼近人們的日常生活。

微信截圖_20241026150533.png

AutoGLM能夠執行多種任務,如在微信上點贊並評論朋友圈、在淘寶上購買歷史訂單產品、在攜程上預訂酒店、在12306上購買火車票、在美團上點外賣等。它的應用場景不僅限於此,理論上,AutoGLM可以完成人類在可視化電子設備上能做的任何事,操作邏輯與人類類似,無需複雜的工作流搭建。

目前,用戶可以通過安裝“智譜清言”插件體驗AutoGLM-Web,這是一個瀏覽器助手,能夠模擬用戶訪問網頁、點擊網頁,並在網站上自動完成高級檢索、總結與內容生成。此外,AutoGLM也在安卓系統上開放了內測申請,並與榮耀等手機廠商開展了深度合作。

微信截圖_20241026150714.png

AutoGLM的技術基於智譜自研的“基礎智能體解耦合中間界面”和“自進化在線課程強化學習框架”,解決了大模型智能體任務規劃和動作執行中的能力拮抗、訓練任務和數據稀缺、反饋信號稀少和策略分佈漂移等問題。AutoGLM能夠不斷自我改進、持續穩定地提高自身性能,類似於人在成長過程中不斷獲取新技能。

在技術挑戰方面,AutoGLM解決了“動作執行”不夠精確和“任務規劃”不夠靈活的問題。它通過“基礎智能體解耦合中間界面”設計,將“任務規劃”與“動作執行”兩個階段通過自然語言中間界面進行解耦合,實現了智能體能力的極大提升。同時,AutoGLM採用了“自進化在線課程強化學習框架”,在真實在線環境中學習和提升大模型智能體在Web和Phone環境中的能力。

AutoGLM在Phone Use和Web Browser Use上都取得了顯著的性能提升,並在AndroidLab評測基準上超越了GPT-4o和Claude-3.5-Sonnet的表現。在WebArena-Lite評測基準中,AutoGLM相對GPT-4o取得了約200%的性能提升,縮小了人類和大模型智能體在GUI操控上的成功率差距。

項目地址:https://xiao9905.github.io/AutoGLM