4月2日,智譜正式發佈了專爲視覺編程打造的多模態 Coding 基座模型 —— GLM-5V-Turbo。這款模型不僅能寫代碼,更擁有了“看懂”世界的能力,旨在將 AI Agent 的感知鏈路從枯燥的字符延伸到豐富的設計稿與網頁界面中。

核心突破:看得懂畫面,寫得出代碼

作爲原生多模態 Coding 基座,GLM-5V-Turbo 實現了視覺與編程能力的深度融合:

原生多模態感知: 能夠深度理解圖片、視頻、設計稿及複雜的文檔版面,支持畫框、截圖、讀網頁等多種視覺工具調用。

超長視野: 上下文窗口大幅擴展至 200k,讓 Agent 能夠輕鬆處理龐大的工程項目或長篇技術文檔。

性能跨越: 在多模態 Coding、GUI Agent(圖形用戶界面智能體)等核心基準測試中,該模型以更小的尺寸取得了領先表現,且確保了純文本場景下的邏輯推理能力不退化。

典型場景:從“草圖”到“成品”的秒級跨越

GLM-5V-Turbo 的加入,讓開發者可以體驗到前所未有的工作流:

前端復刻: 只需發送一張草圖、設計稿截圖或一段操作錄屏,模型即可理解佈局、配色與交互邏輯,生成完整可運行的前端工程,精準還原視覺細節。

GUI 自主探索: 結合 Claude Code 等框架,它能像真人一樣自主瀏覽網頁、梳理跳轉關係並採集素材,實現從“看圖復刻”到“主動探索復刻”的能力躍升。

交互式編輯: 支持通過對話直接增刪模塊、修改文案或調整佈局,實現可視化的代碼迭代。

賦能“龍蝦”:AutoClaw 迎來視覺進化

在智譜自研的智能體 AutoClaw(龍蝦) 中接入該模型後,原本只能處理文字任務的“龍蝦”具備了真正的視覺能力。

深度解讀圖表: 龍蝦現在能直接看懂 K 線走勢圖、估值區間圖及券商研報圖表。

高效產出: 支持四路數據源在60秒內並行採集,自動生成圖文並茂的專業分析報告或 PPT。

行業觀察:編程不再是“盲人摸象”

隨着 GLM-5V-Turbo 的發佈,智譜 成功將 AI 的理解力從單純的語法邏輯推向了感知邏輯。當 AI 能夠“看見”屏幕並理解人類的操作環境時,真正的全自動編程輔助(Agentic Coding)纔算真正拉開了序幕。