4月2日,智譜正式發佈了專爲視覺編程打造的多模態基座模型 GLM-5V-Turbo。這款模型不僅能寫代碼,更擁有了“看懂”世界的能力,旨在將 AI Agent 的感知鏈路從枯燥的字符延伸到豐富的設計稿與網頁界面中。

image.png

核心突破:看得懂畫面,寫得出代碼

作爲原生多模態 Coding 基座,GLM-5V-Turbo 實現了視覺與編程能力的深度融合:

  • 多維感知: 原生理解圖片、視頻、設計稿及複雜的文檔版面,支持畫框、截圖、讀網頁等多種視覺工具調用。

  • 超長視野: 上下文窗口擴展至 200k,能夠輕鬆處理龐大的工程項目或長篇技術文檔。

  • 性能領先: 在多模態 Coding、GUI Agent(圖形用戶界面智能體)等核心基準測試中,該模型以更小的尺寸取得了超越同類產品的表現。

image.png

典型場景:從“草圖”到“成品”的秒級跨越

GLM-5V-Turbo 的加入,讓開發者可以體驗到前所未有的工作流:

  • 前端復刻: 只需發送一張設計稿截圖或一段操作錄屏,模型即可理解佈局、配色與交互邏輯,生成可直接運行的前端工程。

  • GUI 自主探索: 結合 Claude Code 等框架,它能像真人一樣自主瀏覽網頁、梳理跳轉關係並採集素材,實現全站級別的視覺復現。

  • 交互式編輯: 支持通過對話直接增刪模塊、修改樣式或調整佈局,實現可視化的代碼迭代。

賦能“龍蝦”:AutoClaw 迎來視覺進化

在智譜自研的智能體 AutoClaw(龍蝦) 中接入該模型後,原本只能處理文字任務的“龍蝦”具備了真正的視覺能力。例如,它現在能直接看懂 K 線走勢圖、解讀券商研報中的複雜圖表,並在60秒內完成多路數據採集,輸出圖文並茂的專業分析報告。

行業觀察:編程不再是“盲人摸象”

隨着 GLM-5V-Turbo 的發佈,智譜成功將 AI 的理解力從單純的語法邏輯推向了美學與感知邏輯。當 AI 能夠“看見”屏幕並理解人類的操作環境時,真正的全自動編程輔助(Agentic Coding)纔算真正拉開了序幕。