智譜正式並上線開源 GLM-4.6V 多模態大模型系列,含基礎版 GLM-4.6V(總參106B,激活12B)與輕量版 GLM-4.6V-Flash(9B)。新模型將上下文窗口提升至128k tokens,視覺理解精度達同參數 SOTA,首次把 Function Call 能力原生融入視覺模型,打通「視覺感知 → 可執行行動」完整鏈路。 API 價格較 GLM-4.5V 下降50%,輸入1元 / 百萬 tokens、輸出3元 / 百萬 tokens;GLM-4.6V-Flash 完全免費,已集成 GLM Coding Plan 與專用 MCP 工具,開發者可零成本商用。
技術亮點:128k 多圖長文 + 原生視覺 Function Call
128k 多模態上下文:單輪可輸入30張高分辨率圖片 +8萬字文本,在 Video-MME、MMBench-Video 等長視頻理解基準中取得 SOTA
原生 Function Call:視覺信號直接映射爲可執行 API,無需額外 Projector,延遲降低37%,成功率提升18%
統一編碼:圖像、視頻、文本共用一套 Transformer,推理時動態路由,顯存佔用下降30%
價格與授權:輕量版免費,基礎版腰斬
GLM-4.6V-Flash(9B):0元調用,開放權重與商用 License,適合邊緣設備與 SaaS 集成
GLM-4.6V(106B-A12B):輸入1元 / 百萬 tokens、輸出3元 / 百萬 tokens,約爲 GPT-4V 的1/4
降價50%:相比 GLM-4.5V 整體下調50%,並贈送100萬 tokens 試用額度
開發者工具:MCP + Coding Plan 一鍵接入
專用 MCP(Model-Context-Protocol)工具:10行代碼即可把 GLM-4.6V 接入 VS Code、Cursor,實現“框選 UI→自動生成前端代碼”
GLM Coding Plan:提供50+ 場景模板(網頁、小程序、腳本),視覺需求→可執行代碼→自動部署
在線 Playground:支持拖拽圖片、實時調試 Function Call,一鍵導出 Python/Node.js 調用片段
基準成績:同參數 SOTA,長視頻理解領先
| 基準 | GLM-4.6V | GPT-4V | Gemini1.5Pro |
| --------------------- | -------- | ------ | -------------- |
| Video-MME |74.8 |69.1 |72.9 |
| MMBench-Video |82.1 |78.4 |80.6 |
| LongVideoBench (128k) |65.3 |58.2 |62.1 |
商用場景與案例
影視預覽:導演上傳角色圖+分鏡,自動輸出30秒預覽視頻,主體一致性>96%
工業檢測:拍攝設備面板→自動識別異常區域→調用維修 API 創建工單
教育課件:教師框選課本插圖→生成3D 動畫+語音講解,一鍵導出 PPT
開放路線
今日起:權重、推理代碼、MCP 工具已在 GitHub 與 Hugging Face 開源(搜索 GLM-4.6V)
2025Q1:發佈1M context 版本與端側 INT4量化模型,可在筆記本 CPU 運行
2025Q2:推出「視覺 Agent Store」,開發者可上架自定義 Function Call,按調用分成
行業觀察
當多模態仍停留在“看得懂”階段時,智譜把「看得懂 + 做得出」塞進一條模型:Function Call 原生集成,讓圖片直接觸發 API,省去視覺→文本→Prompt 的冗餘鏈路。免費9B 版本降低嚐鮮門檻,106B 基礎版價格腰斬,意在快速搶佔視覺 Agent 生態。隨着128k 長視頻理解落地,影視、工業、教育等垂直場景有望率先規模化落地。AIbase 將持續跟蹤其端側量化與 Agent Store 進展。
