智谱视觉推理模型GLM-4.5V上线并开源

智谱宣布推出并开源了全球100B级效果最佳的开源视觉推理模型GLM-4.5V，这是该公司在通向通用人工智能（AGI）道路上的又一重要探索性成果。该模型在魔搭社区与Hugging Face上同步开源，其总参数达到106B，激活参数为12B，标志着多模态推理技术的新里程碑。

GLM-4.5V基于智谱新一代旗舰文本基座模型GLM-4.5-Air，延续了GLM-4.1V-Thinking的技术路线。在41个公开视觉多模态榜单中，GLM-4.5V的综合效果达到了同级别开源模型的最高性能（SOTA），涵盖了图像、视频、文档理解以及GUI Agent等常见任务。该模型不仅在多模态榜单上表现出色，更在真实场景下的表现与可用性方面得到了重视。

GLM-4.5V通过高效混合训练，具备了覆盖不同种视觉内容的处理能力，实现全场景视觉推理，包括图像推理、视频理解、GUI任务、复杂图表与长文档解析以及Grounding能力。模型新增的“思考模式”开关，允许用户灵活选择快速响应或深度推理，平衡效率与效果。

微信截图_20250812081729.png

为了帮助开发者直观体验GLM-4.5V的模型能力，智谱清言同步开源了一款桌面助手应用，该应用可实时截屏、录屏获取屏幕信息，并依托GLM-4.5V处理多种视觉推理任务，如代码辅助、视频内容分析、游戏解答、文档解读等多类视觉任务，成为一个能看着屏幕和你一起工作娱乐的伙伴。

GLM-4.5V的API现已上线智谱开放平台BigModel.cn，为所有新老用户准备了2000万Tokens的免费资源包。该模型在保持高精度的同时，兼顾推理速度与部署成本，为企业与开发者提供高性价比的多模态AI解决方案。API调用价格低至输入2元/M tokens，输出6元/M tokens，响应速度达到60-80tokens/s。

此外，GLM-4.5V在视觉定位、前端复刻、图像识别与推理、复杂文档深度解读以及GUI Agent能力等方面展现了强大的性能。例如，它能够精准识别和定位目标物体，复刻网页，通过图像中的细微线索推理出背景信息，阅读并解读长达数十页的复杂长文本，以及在GUI环境中进行对话问答、图标定位等任务。

GLM-4.5V的技术细节包括视觉编码器、MLP适配器和语言解码器三部分组成，支持64K多模态长上下文，支持图像与视频输入，并通过三维卷积提升视频处理效率。模型采用双三次插值机制，有效增强了对高分辨率及极端宽高比图像的处理能力与稳健性;同时，引入三维旋转位置编码（3D-RoPE），显著强化了对多模态信息的三维空间关系的感知与推理能力。

GitHub:https://github.com/zai-org/GLM-V
Hugging Face:https://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102
魔搭社区:https://modelscope.cn/collections/GLM-45V-8b471c8f97154e

智谱视觉推理模型GLM-4.5V上线并开源

相关推荐

苹果论文又炸场！Qwen3-Coder 被“特调”后，UI 生成能力竟超越了 GPT-5？

智谱发布0.9B 轻量级 GLM-OCR:性能登顶，千次处理仅需0.1元

谁是谁的“老师”？Mistral CEO 称 DeepSeek 借鉴其架构引发技术圈热议

仅用美国顶尖实验室1%的资源！Kimi总裁张予彤：国产大模型不靠“大力出奇迹”也能赢

美团推出 LongCat-Flash-Thinking-2601，开源工具调用能力再登高峰

​智谱视觉推理模型GLM-4.5V上线并开源

相关推荐

苹果论文又炸场！Qwen3-Coder 被“特调”后，UI 生成能力竟超越了 GPT-5？

智谱发布0.9B 轻量级 GLM-OCR:性能登顶，千次处理仅需0.1元

谁是谁的“老师”？Mistral CEO 称 DeepSeek 借鉴其架构引发技术圈热议

仅用美国顶尖实验室1%的资源！Kimi总裁张予彤：国产大模型不靠“大力出奇迹”也能赢

美团推出 LongCat-Flash-Thinking-2601，开源工具调用能力再登高峰

智谱视觉推理模型GLM-4.5V上线并开源