智譜視覺推理模型GLM-4.5V上線並開源

智譜宣佈推出並開源了全球100B級效果最佳的開源視覺推理模型GLM-4.5V，這是該公司在通向通用人工智能（AGI）道路上的又一重要探索性成果。該模型在魔搭社區與Hugging Face上同步開源，其總參數達到106B，激活參數爲12B，標誌着多模態推理技術的新里程碑。

GLM-4.5V基於智譜新一代旗艦文本基座模型GLM-4.5-Air，延續了GLM-4.1V-Thinking的技術路線。在41個公開視覺多模態榜單中，GLM-4.5V的綜合效果達到了同級別開源模型的最高性能（SOTA），涵蓋了圖像、視頻、文檔理解以及GUI Agent等常見任務。該模型不僅在多模態榜單上表現出色，更在真實場景下的表現與可用性方面得到了重視。

GLM-4.5V通過高效混合訓練，具備了覆蓋不同種視覺內容的處理能力，實現全場景視覺推理，包括圖像推理、視頻理解、GUI任務、複雜圖表與長文檔解析以及Grounding能力。模型新增的“思考模式”開關，允許用戶靈活選擇快速響應或深度推理，平衡效率與效果。

微信截圖_20250812081729.png

爲了幫助開發者直觀體驗GLM-4.5V的模型能力，智譜清言同步開源了一款桌面助手應用，該應用可實時截屏、錄屏獲取屏幕信息，並依託GLM-4.5V處理多種視覺推理任務，如代碼輔助、視頻內容分析、遊戲解答、文檔解讀等多類視覺任務，成爲一個能看着屏幕和你一起工作娛樂的夥伴。

GLM-4.5V的API現已上線智譜開放平臺BigModel.cn，爲所有新老用戶準備了2000萬Tokens的免費資源包。該模型在保持高精度的同時，兼顧推理速度與部署成本，爲企業與開發者提供高性價比的多模態AI解決方案。API調用價格低至輸入2元/M tokens，輸出6元/M tokens，響應速度達到60-80tokens/s。

此外，GLM-4.5V在視覺定位、前端復刻、圖像識別與推理、複雜文檔深度解讀以及GUI Agent能力等方面展現了強大的性能。例如，它能夠精準識別和定位目標物體，復刻網頁，通過圖像中的細微線索推理出背景信息，閱讀並解讀長達數十頁的複雜長文本，以及在GUI環境中進行對話問答、圖標定位等任務。

GLM-4.5V的技術細節包括視覺編碼器、MLP適配器和語言解碼器三部分組成，支持64K多模態長上下文，支持圖像與視頻輸入，並通過三維卷積提升視頻處理效率。模型採用雙三次插值機制，有效增強了對高分辨率及極端寬高比圖像的處理能力與穩健性;同時，引入三維旋轉位置編碼（3D-RoPE），顯著強化了對多模態信息的三維空間關係的感知與推理能力。

GitHub:https://github.com/zai-org/GLM-V
Hugging Face:https://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102
魔搭社區:https://modelscope.cn/collections/GLM-45V-8b471c8f97154e

智譜視覺推理模型GLM-4.5V上線並開源

相關推薦

崑崙萬維AI視頻產品SkyReels將於11月初上線全新版本

硅基流動平臺上線阿里 Qwen3-VL 模型，全面提升視覺認知能力

螞蟻百靈團隊全新開源高性能思考模型 Ring-flash-2.0

阿里雲CTO透露：通義千問開源300+模型下載量破6億大關

法國AI公司Mistral重磅推出開源推理模型 Magistral Small 1.2

​智譜視覺推理模型GLM-4.5V上線並開源

相關推薦

崑崙萬維AI視頻產品SkyReels將於11月初上線全新版本

硅基流動平臺上線阿里 Qwen3-VL 模型，全面提升視覺認知能力

螞蟻百靈團隊全新開源高性能思考模型 Ring-flash-2.0

阿里雲CTO透露：通義千問開源300+模型 下載量破6億大關

法國AI公司Mistral重磅推出開源推理模型 Magistral Small 1.2

智譜視覺推理模型GLM-4.5V上線並開源

阿里雲CTO透露：通義千問開源300+模型下載量破6億大關