阿里巴巴通義實驗室近日重磅開源全新圖像生成模型 Z-Image,該模型憑藉僅 6B 的參數規模,實現了高效的圖像生成與編輯,其視覺質量已接近國際領先商業模型的三倍參數級別(約20B)。Z-Image 在生成速度和資源佔用上表現出色,有望大幅推動 AI 圖像生成工具向更普適的消費級應用轉型。

輕量化架構與高效性能

Z-Image 採用單流 DiT (Diffusion Transformer) 架構,包含 Z-Image-Turbo(專注於快速推理)、Z-Image-Base(基礎開發)和 Z-Image-Edit(圖像編輯)三大核心變體,以滿足不同的應用需求。

通過解耦 DMDDMDR 等創新技術,該模型僅需 8個採樣步驟即可輸出高清逼真圖像,顯存佔用控制在 16GB 以下,使其能在 NVIDIA RTX30系列等消費級顯卡上流暢運行,在 H800GPU 上甚至可實現亞秒級的生成速度。

QQ20251127-142811.png

 複雜指令理解與雙語渲染突破

Z-Image 模型的關鍵優勢在於其強大的提示增強與推理能力,能夠超越表面的文字描述,融入“世界知識”進行語義對齊,確保輸出圖像的光影自然、細節豐富。它不僅支持複雜指令理解和多模態編輯任務,更在中英雙語文字渲染方面展現出高精度,有效解決了傳統 AI 圖像模型在文本處理上的痛點。

業內測試顯示,Z-Image 在人像生成、場景構圖和編輯一致性上表現搶眼,在 ComfyUI 框架下的測試中超越了部分 SDXL 基線模型,尤其在中文海報渲染和 NSFW 內容處理上表現出優異的穩定性。

 開源策略引領行業變革

此次 Z-Image 的發佈正值全球圖像生成模型競賽加劇之際,其輕量高效的設計策略,與日前黑森林實驗室發佈的32B 參數的 Flux.2等大型模型形成鮮明對比,凸顯了中國 AI 企業在資源優化和降本增效上的創新路徑。

分析人士認爲,Z-Image 的 Apache2.0開源許可及其在 GitHub、Hugging Face 和 ModelScope 平臺的全面可用性,極大地降低了開發者和創意人員的微調門檻。隨着此類高效模型的迭代,AI 圖像工具預計將在 2026年加速滲透至移動端和邊緣設備,全面賦能電商、影視和遊戲等產業。

  • 項目官網:https://tongyi-mai.github.io/Z-Image-homepage/
  • GitHub倉庫:https://github.com/Tongyi-MAI/Z-Image