智譜發佈 GLM-5V-Turbo：給 AI 智能體安上“火眼金睛”

4月2日，智譜正式發佈了專爲視覺編程打造的多模態 Coding 基座模型 —— GLM-5V-Turbo。這款模型不僅能寫代碼，更擁有了“看懂”世界的能力，旨在將 AI Agent 的感知鏈路從枯燥的字符延伸到豐富的設計稿與網頁界面中。

作爲原生多模態 Coding 基座，GLM-5V-Turbo 實現了視覺與編程能力的深度融合:

原生多模態感知: 能夠深度理解圖片、視頻、設計稿及複雜的文檔版面，支持畫框、截圖、讀網頁等多種視覺工具調用。

超長視野: 上下文窗口大幅擴展至 200k，讓 Agent 能夠輕鬆處理龐大的工程項目或長篇技術文檔。

性能跨越: 在多模態 Coding、GUI Agent（圖形用戶界面智能體）等核心基準測試中，該模型以更小的尺寸取得了領先表現，且確保了純文本場景下的邏輯推理能力不退化。

GLM-5V-Turbo 的加入，讓開發者可以體驗到前所未有的工作流:

前端復刻: 只需發送一張草圖、設計稿截圖或一段操作錄屏，模型即可理解佈局、配色與交互邏輯，生成完整可運行的前端工程，精準還原視覺細節。

GUI 自主探索: 結合 Claude Code 等框架，它能像真人一樣自主瀏覽網頁、梳理跳轉關係並採集素材，實現從“看圖復刻”到“主動探索復刻”的能力躍升。

交互式編輯: 支持通過對話直接增刪模塊、修改文案或調整佈局，實現可視化的代碼迭代。

在智譜自研的智能體 AutoClaw（龍蝦） 中接入該模型後，原本只能處理文字任務的“龍蝦”具備了真正的視覺能力。

深度解讀圖表: 龍蝦現在能直接看懂 K 線走勢圖、估值區間圖及券商研報圖表。

高效產出: 支持四路數據源在60秒內並行採集，自動生成圖文並茂的專業分析報告或 PPT。

隨着 GLM-5V-Turbo 的發佈，智譜成功將 AI 的理解力從單純的語法邏輯推向了感知邏輯。當 AI 能夠“看見”屏幕並理解人類的操作環境時，真正的全自動編程輔助（Agentic Coding）纔算真正拉開了序幕。

智譜推出 GLM-5V-Turbo：爲 AI 編程安上“眼睛”，設計稿秒變代碼