阿里通義正式發佈了其最新的生圖模型 Z-Image。該模型在發佈首日便迅速登頂 Hugging Face 的趨勢榜,下載量達到驚人的50萬次。Z-Image 以僅6億個參數的規模,實現了與大型模型相媲美的照片級真實感,能夠精細還原皮膚質感、髮絲細節以及自然光影和材質紋理,展現出美學表現的構圖與氛圍。

image.png

Z-Image 還推出了一個名爲 Z-Image-Turbo 的優化版本,這一版本在生成高質量圖像時僅需8步推理,特別適合日常創作、海報設計及快速原型生成。即便在複雜的文本排版環境下,Z-Image-Turbo 也能準確渲染中英文混合文本,保持文字清晰,併兼顧人臉的真實感和整體畫面的美感。

該模型具備廣泛的現實世界知識,能夠生成著名地標如埃菲爾鐵塔和故宮,並在細節、比例與語境上與真實世界相符。通過提示詞增強器,Z-Image 能夠理解並處理複雜任務,表現出不僅僅是繪圖的能力,而是能夠進行理解後的創作。

此外,Z-Image-Edit 則專注於複雜複合編輯指令的執行,比如 “讓人物微笑 + 轉頭 + 背景換成櫻花 + 添加中文標語”,在大幅修改中保持光照、身份和風格的高度一致性,避免常見的錯位和失真問題。

在數據層面,Z-Image 構建了高效的數據生態,致力於用 “對的數據” 提升訓練效率。模型架構方面,Z-Image 採用了單流擴散 Transformer(S³-DiT),有效提高了參數的利用率。訓練過程中,通過三階段漸進式策略系統地注入世界知識,並通過 Z-Image-Turbo 實現實時高質量生成。

  • GitHub:https://github.com/Tongyi-MAI/Z-Image

  • Hugging Face:https://huggingface.co/Tongyi-MAI/Z-Image-Turbo

劃重點:  

🌟 Z-Image 模型首日下載量達50萬,迅速登頂 Hugging Face 趨勢榜。  

🎨 Z-Image 以6億參數實現高質量照片級真實感,兼顧文本渲染。  

🚀 Z-Image-Turbo 和 Z-Image-Edit 提供高效的圖像生成與編輯能力。