智譜 AI 開源了 CogAgent,這是一個視覺語言模型,擁有 180 億參數規模。CogAgent 在 GUI 理解和導航方面表現出色,在多個基準測試上取得了 SOTA 的通用性能。模型支持高分辨率的視覺輸入和對話問答,並且可以針對任意 GUI 截圖進行問答。此外,CogAgent 還支持 OCR 相關任務,通過預訓練和微調,其能力得到了顯著提升。用戶可以通過上傳截圖進行任務推理,並獲得計劃、下一個動作以及具體操作的座標信息。