正文

清华大学研发新视觉语言模型CogAgent，深化GUI理解与导航

aibase

发布于AI新闻资讯

发布时间 :2023年12月27号 15:35

阅读 :1分钟

清华大学智普AI团队推出CogAgent，该视觉语言模型专注于改善对图形用户界面(GUI)的理解与导航，采用双编码器系统处理复杂GUI元素。模型在高分辨率输入处理、PC和Android平台的GUI导航以及文本和视觉问答任务上均表现出色。CogAgent的潜在应用包括自动化GUI操作、提供GUI帮助和指导，以及推动新的GUI设计和交互方式。尽管仍在早期开发阶段，但该模型有望在计算机交互方式上带来重大改变。

相关推荐

OpenAI人才流动：前研究员田永龙入职腾讯，深耕视觉语言模型研发

OpenAI前研究员田永龙加盟腾讯大语言模型部，专注视觉语言模型研发。此举被视为腾讯强化多模态大模型布局的关键引援，凸显前沿人才争夺激烈。

2026年7月9号 10:16

OpenAI 前研究员田永龙被曝加入腾讯混元多模态团队

OpenAI前研究员田永龙已加入腾讯，或将担任混元多模态模型负责人，主导视觉语言模型（VLM）研发。消息尚未官宣但备受业界关注，继姚顺雨之后，他成为混元团队引进的又一核心人才，显示腾讯正加速强化多模态大模型领域的人才与技术布局。

2026年7月8号 11:10

IBM发布Granite 4.0 3B Vision：企业级文档数据提取的新利器

IBM发布Granite 4.0 3B Vision视觉语言模型，拥有30亿参数，专为企业级复杂文档数据提取优化。该模型针对金融、法律、医疗等行业非结构化数据处理难题，在复杂表格、扫描件及多模态布局文档中表现突出，通过结合视觉理解与语言生成，精准识别并提取关键信息。

2026年4月2号 14:34

Suno 压力大了！腾讯联手清华发布 SongGeneration 2，音素错误率低至 8.55%

腾讯与清华大学联合推出AI音乐模型SongGeneration2，在技术架构和音乐质量上实现重大突破，显著超越现有开源模型，甚至媲美顶级商业产品，有效解决了AI音乐的“塑料感”问题。

2026年3月10号 9:55

AI 视觉模型深入“搬砖”一线：Bedrock Robotics 联手 AWS 破解建筑业用工荒

初创公司Bedrock Robotics与AWS合作，利用视觉语言模型（VLMs）解决了重型设备自动驾驶系统开发中的关键难题——海量视频数据标注。传统方法依赖人工标注数百万小时监控视频，而新技术显著提升了施工自动化系统的训练效率。

2026年2月24号 9:18

AIBase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2026AIBase