智譜AI開源Agent任務模型CogAgent-9B：通過屏幕截圖預判操作

智譜AI旗下的GLM-PC基座模型CogAgent-9B現已開源，以促進大模型Agent生態的發展。CogAgent-9B是基於GLM-4V-9B訓練而成的專用Agent任務模型，能夠僅通過屏幕截圖作爲輸入，根據用戶指定的任意任務結合歷史操作，預測下一步的GUI操作。這一模型的普適性使其可廣泛應用於個人電腦、手機、車機設備等多種基於GUI交互的場景。

微信截圖_20241227091131.png

與2023年12月開源的第一版CogAgent模型相比，CogAgent-9B-20241220在GUI感知、推理預測準確性、動作空間完善性、任務普適性和泛化性等方面均有顯著提升，並支持中英文雙語的屏幕截圖和語言交互。CogAgent的輸入僅包含用戶的自然語言指令、已執行歷史動作記錄和GUI截圖，無需任何文本形式表徵的佈局信息或附加元素標籤信息。輸出則涵蓋思考過程、下一步動作的自然語言描述、下一步動作的結構化描述以及下一步動作的敏感性判斷。

在性能測試中，CogAgent-9B-20241220在多個數據集上取得了領先結果，展現了其在GUI定位、單步操作、中文step-wise榜單和多步操作等方面的優勢。智譜技術的這一舉措，不僅推動了大模型技術的發展，也爲視障IT從業者提供了新的工具和可能性。

代碼:
https://github.com/THUDM/CogAgent
模型:
Huggingface: https://huggingface.co/THUDM/cogagent-9b-20241220
魔搭社區:https://modelscope.cn/models/ZhipuAI/cogagent-9b-20241220

智譜發佈開源大模型GLM-4.6:編程能力對齊Claude Sonnet4

智譜AI發佈並開源新一代模型GLM-4.6，在Agentic Coding等關鍵能力上實現大幅提升。其編程能力已對齊國際頂尖模型Claude Sonnet4，並超越DeepSeek-V3.2-Exp，成爲當前國內最強代碼生成模型。該模型在國產化適配方面取得里程碑進展，已成功部署於寒武紀國產芯片平臺。

智譜AI重磅開源GLM-4.1V-Thinking！多模態推理新王者，挑戰全球頂尖模型

中國人工智能領域的領軍企業智譜AI（Zhipu AI）再次掀起行業熱潮。AIbase最新獲悉，智譜AI於近日正式開源其新一代通用視覺模型GLM-4.1V-Thinking。這款9億參數的多模態推理模型憑藉卓越的性能和廣泛的應用場景，不僅在多項權威評測中刷新紀錄，還展現了比肩甚至超越72億參數模型的強大實力。以下是AIbase整理的最新資訊，帶您深入瞭解這一突破性技術。引入思維鏈推理，性能大幅提升GLM-4.1V-Thinking基於智譜AI此前的GLM-4V架構進行了深度優化，引入了創新的思維鏈推理機制（Chain-of-Thought Reason

智譜AI開源GLM-4.1V-Thinking:多模態推理模型再突破

智譜AI正式開源最新一代通用視覺模型GLM-4.1V-Thinking，基於GLM-4V架構，新增思維鏈推理機制，顯著提升複雜認知任務能力。該模型支持圖像、視頻、文檔等多模態輸入，擅長長視頻理解、圖像問答、學科解題、文字識別、文檔解讀、Grounding、GUI Agent及代碼生成等多樣化場景，覆蓋千行百業的應用需求。GLM-4.1V-9B-Thinking在28項權威評測中表現卓越，其中23項達成10B級模型最佳成績，18項持平或超越72B參數的Qwen-2.5-VL，涵蓋MMStar、MMMU-Pro、ChartQAPro、OSWorld等基準測試。其9億參數規模結合高效推理能力

智譜AI全新企業級超級助手Agent CoCo正式上線

今日，智譜AI宣佈，全新企業級超級助手Agent CoCo正式上線。這款智能助手以“懂你懂企業，能幹能交付”爲核心理念，致力於爲企業帶來前所未有的工作效率提升。 CoCo具備三大顯著的企業級特性。首先，它以交付爲導向，全流程輔助工作，確保每一項任務都能以最終成果爲衡量標準，真正做到用結果說話。其次，CoCo引入了獨特的記憶機制，能夠根據每位員工的職能和需求，主動提供個性化的服務，成爲每位員工的專屬祕書。這一機制還能根據用戶的工作重點，主動跟蹤行業動態，確保信息的及時性和準確性。最後，CoCo具備無縫嵌入企業現有系統的能力，它能夠融合企業已有的數據資源和系統工具，打造出一個真正懂企業的智能助手。

智譜AI開源Agent任務模型CogAgent-9B：通過屏幕截圖預判操作

相關推薦

智譜發佈開源大模型GLM-4.6:編程能力對齊Claude Sonnet4

智譜AI發佈革命性產品AutoGLM 2.0 語音一句話即可代替雙手操控全網

智譜AI重磅開源GLM-4.1V-Thinking！多模態推理新王者，挑戰全球頂尖模型

智譜AI開源GLM-4.1V-Thinking:多模態推理模型再突破

智譜AI全新企業級超級助手Agent CoCo正式上線

智譜A​I開源Agent任務模型CogAgent-9B：通過屏幕截圖預判操作

相關推薦

智譜發佈開源大模型GLM-4.6:編程能力對齊Claude Sonnet4

智譜AI發佈革命性產品AutoGLM 2.0 語音一句話即可代替雙手操控全網

智譜AI重磅開源GLM-4.1V-Thinking！多模態推理新王者，挑戰全球頂尖模型

智譜AI開源GLM-4.1V-Thinking:多模態推理模型再突破

智譜AI全新企業級超級助手Agent CoCo正式上線

智譜AI開源Agent任務模型CogAgent-9B：通過屏幕截圖預判操作