智譜 AI 近日發佈了專門針對視覺編程打造的大模型 GLM-5V-Turbo。這款模型最大的突破在於它不僅能理解文字,還能直接“看懂”設計稿和網頁截圖。

通過原生多模態能力的融合,GLM-5V-Turbo 讓 AI 編程告別了純文本輸入的侷限。開發者只需上傳一張草圖或界面截圖,模型就能自動生成可運行的前端代碼。

image.png

視覺感知:從“讀文檔”到“看界面”

這款新模型擁有200k 的超長上下文窗口,能夠處理極其複雜的代碼庫。它不僅能識別網頁的佈局,還能精準捕捉配色、組件層級以及細微的交互邏輯。

在實際測試中,GLM-5V-Turbo 在設計稿還原和視覺代碼生成等任務上表現出色。這意味着從視覺稿到成品頁面的轉化效率將得到質的飛躍。

image.png

賦能智能體:讓“龍蝦”具備觀察力

智譜旗下的 AutoClaw(龍蝦)智能體在接入該模型後,獲得了真正的視覺能力。它現在可以像人類一樣瀏覽網頁,甚至能解讀複雜的 K 線圖和券商研報圖表。

目前,龍蝦已上線“股票分析師”功能,支持四路數據源並行採集。它能在60秒內看懂市場走勢並輸出圖文並茂的專業報告,極大拓寬了 AI 助手的任務邊界。

智譜此舉標誌着 AI Agent 的感知鏈路正式從純文本延伸到了視覺交互領域。當 AI 具備了“所見即所得”的能力,軟件開發的門檻將進一步降低。

對於前端開發者而言,交互式編輯功能將成爲強大的催化劑。用戶可以通過簡單的指令要求 AI 修改樣式或增加彈窗,實現可視化、高效率的迭代開發。