智谱宣布推出并开源了全球100B级效果最佳的开源视觉推理模型GLM-4.5V,这是该公司在通向通用人工智能(AGI)道路上的又一重要探索性成果。该模型在魔搭社区与Hugging Face上同步开源,其总参数达到106B,激活参数为12B,标志着多模态推理技术的新里程碑。

GLM-4.5V基于智谱新一代旗舰文本基座模型GLM-4.5-Air,延续了GLM-4.1V-Thinking的技术路线。在41个公开视觉多模态榜单中,GLM-4.5V的综合效果达到了同级别开源模型的最高性能(SOTA),涵盖了图像、视频、文档理解以及GUI Agent等常见任务。该模型不仅在多模态榜单上表现出色,更在真实场景下的表现与可用性方面得到了重视。

GLM-4.5V通过高效混合训练,具备了覆盖不同种视觉内容的处理能力,实现全场景视觉推理,包括图像推理、视频理解、GUI任务、复杂图表与长文档解析以及Grounding能力。模型新增的“思考模式”开关,允许用户灵活选择快速响应或深度推理,平衡效率与效果。

微信截图_20250812081729.png

为了帮助开发者直观体验GLM-4.5V的模型能力,智谱清言同步开源了一款桌面助手应用,该应用可实时截屏、录屏获取屏幕信息,并依托GLM-4.5V处理多种视觉推理任务,如代码辅助、视频内容分析、游戏解答、文档解读等多类视觉任务,成为一个能看着屏幕和你一起工作娱乐的伙伴。

GLM-4.5V的API现已上线智谱开放平台BigModel.cn,为所有新老用户准备了2000万Tokens的免费资源包。该模型在保持高精度的同时,兼顾推理速度与部署成本,为企业与开发者提供高性价比的多模态AI解决方案。API调用价格低至输入2元/M tokens,输出6元/M tokens,响应速度达到60-80tokens/s。

此外,GLM-4.5V在视觉定位、前端复刻、图像识别与推理、复杂文档深度解读以及GUI Agent能力等方面展现了强大的性能。例如,它能够精准识别和定位目标物体,复刻网页,通过图像中的细微线索推理出背景信息,阅读并解读长达数十页的复杂长文本,以及在GUI环境中进行对话问答、图标定位等任务。

GLM-4.5V的技术细节包括视觉编码器、MLP适配器和语言解码器三部分组成,支持64K多模态长上下文,支持图像与视频输入,并通过三维卷积提升视频处理效率。模型采用双三次插值机制,有效增强了对高分辨率及极端宽高比图像的处理能力与稳健性;同时,引入三维旋转位置编码(3D-RoPE),显著强化了对多模态信息的三维空间关系的感知与推理能力。

  • GitHub:https://github.com/zai-org/GLM-V

  • Hugging Face:https://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102

  • 魔搭社区:https://modelscope.cn/collections/GLM-45V-8b471c8f97154e