智譜正式並上線開源 GLM-4.6V 多模態大模型系列,含基礎版 GLM-4.6V(總參106B,激活12B)與輕量版 GLM-4.6V-Flash(9B)。新模型將上下文窗口提升至128k tokens,視覺理解精度達同參數 SOTA,首次把 Function Call 能力原生融入視覺模型,打通「視覺感知 → 可執行行動」完整鏈路。 API 價格較 GLM-4.5V 下降50%,輸入1元 / 百萬 tokens、輸出3元 / 百萬 tokens;GLM-4.6V-Flash 完全免費,已集成 GLM Coding Plan 與專用 MCP 工具,開發者可零成本商用。

技術亮點:128k 多圖長文 + 原生視覺 Function Call

128k 多模態上下文:單輪可輸入30張高分辨率圖片 +8萬字文本,在 Video-MME、MMBench-Video 等長視頻理解基準中取得 SOTA

原生 Function Call:視覺信號直接映射爲可執行 API,無需額外 Projector,延遲降低37%,成功率提升18%

統一編碼:圖像、視頻、文本共用一套 Transformer,推理時動態路由,顯存佔用下降30%

價格與授權:輕量版免費,基礎版腰斬

GLM-4.6V-Flash(9B):0元調用,開放權重與商用 License,適合邊緣設備與 SaaS 集成

GLM-4.6V(106B-A12B):輸入1元 / 百萬 tokens、輸出3元 / 百萬 tokens,約爲 GPT-4V 的1/4

降價50%:相比 GLM-4.5V 整體下調50%,並贈送100萬 tokens 試用額度

開發者工具:MCP + Coding Plan 一鍵接入

專用 MCP(Model-Context-Protocol)工具:10行代碼即可把 GLM-4.6V 接入 VS Code、Cursor,實現“框選 UI→自動生成前端代碼”

GLM Coding Plan:提供50+ 場景模板(網頁、小程序、腳本),視覺需求→可執行代碼→自動部署

在線 Playground:支持拖拽圖片、實時調試 Function Call,一鍵導出 Python/Node.js 調用片段

基準成績:同參數 SOTA,長視頻理解領先

| 基準                    | GLM-4.6V | GPT-4V | Gemini1.5Pro |

| --------------------- | -------- | ------ | -------------- |

| Video-MME             |74.8     |69.1   |72.9           |

| MMBench-Video         |82.1     |78.4   |80.6           |

| LongVideoBench (128k) |65.3     |58.2   |62.1           |

商用場景與案例

影視預覽:導演上傳角色圖+分鏡,自動輸出30秒預覽視頻,主體一致性>96%

工業檢測:拍攝設備面板→自動識別異常區域→調用維修 API 創建工單

教育課件:教師框選課本插圖→生成3D 動畫+語音講解,一鍵導出 PPT

開放路線

今日起:權重、推理代碼、MCP 工具已在 GitHub 與 Hugging Face 開源(搜索 GLM-4.6V)

2025Q1:發佈1M context 版本與端側 INT4量化模型,可在筆記本 CPU 運行

2025Q2:推出「視覺 Agent Store」,開發者可上架自定義 Function Call,按調用分成

行業觀察

當多模態仍停留在“看得懂”階段時,智譜把「看得懂 + 做得出」塞進一條模型:Function Call 原生集成,讓圖片直接觸發 API,省去視覺→文本→Prompt 的冗餘鏈路。免費9B 版本降低嚐鮮門檻,106B 基礎版價格腰斬,意在快速搶佔視覺 Agent 生態。隨着128k 長視頻理解落地,影視、工業、教育等垂直場景有望率先規模化落地。AIbase 將持續跟蹤其端側量化與 Agent Store 進展。