近日,清華大學THUNLP實驗室聯合面壁智能推出了一款創新的端側GUI Agent——**AgentCPM-GUI**,爲移動設備的人機交互帶來全新突破。該智能體基於**MiniCPM-V**模型構建,總參數量僅**8B**,以手機屏幕圖像爲輸入,支持中英文操作,可自動執行用戶提出的任務,展現出強大的GUI元素定位能力。
AgentCPM-GUI覆蓋了包括**高德地圖**、**大衆點評**、**B站**、**小紅書**在內的**30多個主流中文APP**,能夠精準識別和操作APP界面元素,滿足多樣化的用戶需求。無論是導航、點餐還是內容瀏覽,AgentCPM-GUI都能高效完成任務,極大提升了用戶體驗。
值得一提的是,該模型通過**RFT(推理前思考)**技術增強了規劃推理能力。在執行用戶指令前,AgentCPM-GUI會先進行推理思考,生成更準確的動作序列,從而提升任務執行的成功率和可靠性。這一技術的應用使其在端側AI領域表現尤爲突出。
作爲一款輕量級高性能模型,AgentCPM-GUI在手機等端側設備上運行流暢,展現了清華大學THUNLP實驗室與面壁智能在AI技術上的深厚實力。未來,這款GUI Agent有望進一步推動端側AI的普及與應用,助力智能設備邁向更高效的交互時代。