正文

清華大學研發新視覺語言模型CogAgent，深化GUI理解與導航

aibase

發布於AI新閒資訊

時間 :Dec 27, 2023

閱讀 :1分鐘

清華大學智普AI團隊推出CogAgent，該視覺語言模型專注於改善對圖形用戶界面(GUI)的理解與導航，採用雙編碼器系統處理複雜GUI元素。模型在高分辨率輸入處理、PC和Android平臺的GUI導航以及文本和視覺問答任務上均表現出色。CogAgent的潛在應用包括自動化GUI操作、提供GUI幫助和指導，以及推動新的GUI設計和交互方式。儘管仍在早期開發階段，但該模型有望在計算機交互方式上帶來重大改變。

相關推薦

OpenAI人才流動：前研究員田永龍入職騰訊，深耕視覺語言模型研發

OpenAI前研究員田永龍加盟騰訊大語言模型部，專注視覺語言模型研發。此舉被視爲騰訊強化多模態大模型佈局的關鍵引援，凸顯前沿人才爭奪激烈。

OpenAI 前研究員田永龍被曝加入騰訊混元多模態團隊

OpenAI前研究員田永龍已加入騰訊，或將擔任混元多模態模型負責人，主導視覺語言模型（VLM）研發。消息尚未官宣但備受業界關注，繼姚順雨之後，他成爲混元團隊引進的又一核心人才，顯示騰訊正加速強化多模態大模型領域的人才與技術佈局。

IBM發佈Granite 4.0 3B Vision：企業級文檔數據提取的新利器

IBM發佈Granite 4.0 3B Vision視覺語言模型，擁有30億參數，專爲企業級複雜文檔數據提取優化。該模型針對金融、法律、醫療等行業非結構化數據處理難題，在複雜表格、掃描件及多模態佈局文檔中表現突出，通過結合視覺理解與語言生成，精準識別並提取關鍵信息。

Suno 壓力大了！騰訊聯手清華髮布 SongGeneration 2，音素錯誤率低至 8.55%

騰訊與清華大學聯合推出AI音樂模型SongGeneration2，在技術架構和音樂質量上實現重大突破，顯著超越現有開源模型，甚至媲美頂級商業產品，有效解決了AI音樂的“塑料感”問題。

AI 視覺模型深入“搬磚”一線：Bedrock Robotics 聯手 AWS 破解建築業用工荒

初創公司Bedrock Robotics與AWS合作，利用視覺語言模型（VLMs）解決了重型設備自動駕駛系統開發中的關鍵難題——海量視頻數據標註。傳統方法依賴人工標註數百萬小時監控視頻，而新技術顯著提升了施工自動化系統的訓練效率。

AIBase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2026AIBase