智譜正式宣佈聯合華爲開源新一代圖像生成模型GLM-Image。該模型最大的突破在於,它是首個在國產芯片算力底座上完成從數據預處理到大規模訓練全流程的 SOTA(州級水平)多模態模型

GLM-Image採用了創新的“自迴歸 + 擴散解碼器”混合架構,成功實現了圖像生成與語言模型的深度融合。這一架構設計讓模型在處理“知識密集型”生成任務時表現優異,能夠精準理解全局指令並刻畫局部細節,有效解決了海報排版、PPT製作及複雜科普圖生成等長期困擾 AI 繪畫的難題。

image.png

GLM-Image 支持在單個模型中同時進行文本到圖像和圖像到圖像的生成。

  • 文本轉圖像:根據文本描述生成高細節圖像,在信息密集的場景中表現尤爲出色。
  • 圖像到圖像:支持多種任務,包括圖像編輯、風格遷移、多主體一致性以及人物和物體的身份保留生成。

在技術指標上,GLM-Image展現了極強的中文理解與渲染能力。在多項複雜視覺文本生成榜單中,它均位列開源模型第一,尤其擅長處理極具挑戰性的漢字生成任務。此外,該模型原生支持從1024到2048尺寸的任意比例圖像生成,無需額外訓練即可自適應多種分辨率。

目前,GLM-Image已在GitHubHugging Face等平臺全面開源。爲了降低使用門檻,其 API 調用價格低至每張圖0.1元,智譜方面表示,未來還將推出經過速度優化後的新版本,進一步提升商用性價比。

image.png

image.png

  • GitHub:https://github.com/zai-org/GLM-Image

  • Hugging Face:https://huggingface.co/zai-org/GLM-Image

劃重點:

  • 🇨🇳 國產全棧自研:基於華爲昇騰 Atlas800T A2設備與昇思 MindSpore 框架完成全流程訓練,驗證了國產算力訓練頂尖模型的可行性。

  • 🎨 文圖融合突破:採用混合架構,在 LongText-Bench 等長文本渲染榜單中獲得開源第一,大幅提升了漢字與複雜圖文的生成準確率。

  • 💰 高性價比開源:模型支持多種分辨率自適應生成,並以極低的 API 價格向創作者開放,旨在推動國產認知型生成技術的普及。