阿里通义正式发布了其最新的生图模型 Z-Image。该模型在发布首日便迅速登顶 Hugging Face 的趋势榜,下载量达到惊人的50万次。Z-Image 以仅6亿个参数的规模,实现了与大型模型相媲美的照片级真实感,能够精细还原皮肤质感、发丝细节以及自然光影和材质纹理,展现出美学表现的构图与氛围。

Z-Image 还推出了一个名为 Z-Image-Turbo 的优化版本,这一版本在生成高质量图像时仅需8步推理,特别适合日常创作、海报设计及快速原型生成。即便在复杂的文本排版环境下,Z-Image-Turbo 也能准确渲染中英文混合文本,保持文字清晰,并兼顾人脸的真实感和整体画面的美感。
该模型具备广泛的现实世界知识,能够生成著名地标如埃菲尔铁塔和故宫,并在细节、比例与语境上与真实世界相符。通过提示词增强器,Z-Image 能够理解并处理复杂任务,表现出不仅仅是绘图的能力,而是能够进行理解后的创作。
此外,Z-Image-Edit 则专注于复杂复合编辑指令的执行,比如 “让人物微笑 + 转头 + 背景换成樱花 + 添加中文标语”,在大幅修改中保持光照、身份和风格的高度一致性,避免常见的错位和失真问题。
在数据层面,Z-Image 构建了高效的数据生态,致力于用 “对的数据” 提升训练效率。模型架构方面,Z-Image 采用了单流扩散 Transformer(S³-DiT),有效提高了参数的利用率。训练过程中,通过三阶段渐进式策略系统地注入世界知识,并通过 Z-Image-Turbo 实现实时高质量生成。
GitHub:https://github.com/Tongyi-MAI/Z-Image
Hugging Face:https://huggingface.co/Tongyi-MAI/Z-Image-Turbo
划重点:
🌟 Z-Image 模型首日下载量达50万,迅速登顶 Hugging Face 趋势榜。
🎨 Z-Image 以6亿参数实现高质量照片级真实感,兼顾文本渲染。
🚀 Z-Image-Turbo 和 Z-Image-Edit 提供高效的图像生成与编辑能力。
