智譜AI旗下的GLM-PC基座模型CogAgent-9B現已開源,以促進大模型Agent生態的發展。CogAgent-9B是基於GLM-4V-9B訓練而成的專用Agent任務模型,能夠僅通過屏幕截圖作爲輸入,根據用戶指定的任意任務結合歷史操作,預測下一步的GUI操作。這一模型的普適性使其可廣泛應用於個人電腦、手機、車機設備等多種基於GUI交互的場景。

與2023年12月開源的第一版CogAgent模型相比,CogAgent-9B-20241220在GUI感知、推理預測準確性、動作空間完善性、任務普適性和泛化性等方面均有顯著提升,並支持中英文雙語的屏幕截圖和語言交互。CogAgent的輸入僅包含用戶的自然語言指令、已執行歷史動作記錄和GUI截圖,無需任何文本形式表徵的佈局信息或附加元素標籤信息。輸出則涵蓋思考過程、下一步動作的自然語言描述、下一步動作的結構化描述以及下一步動作的敏感性判斷。
在性能測試中,CogAgent-9B-20241220在多個數據集上取得了領先結果,展現了其在GUI定位、單步操作、中文step-wise榜單和多步操作等方面的優勢。智譜技術的這一舉措,不僅推動了大模型技術的發展,也爲視障IT從業者提供了新的工具和可能性。
代碼:
https://github.com/THUDM/CogAgent
模型:
Huggingface: https://huggingface.co/THUDM/cogagent-9b-20241220
魔搭社區:https://modelscope.cn/models/ZhipuAI/cogagent-9b-20241220
