昨晚,一张1024×1024的霓虹汉服大片在RTX4090上只用2.3秒就渲完,显存指针稳稳停在13GB——阿里通义实验室丢出的Z-Image-Turbo让围观群众瞬间安静:参数只有6B,却把20B+的闭源旗舰集体打平,甚至小胜。

没有花哨口号,Z-Image直接用成绩说话:
-8步采样即可交付印刷级画质,消费级显卡30606G就能跑,16G显存封顶;
- 超长嵌套中文咒语一次读懂,从“夜晚的阳光”到“左手奶茶右手手机屏显今日新闻”自动纠偏,中英文字母不再鬼画符;
- 皮肤毛孔、玻璃反射、雨雾逆光、电影景深通通在线,Elo人工偏好榜把Z-Image-Turbo抬进开源世界第一梯队。

秘诀藏在全新S3-DiT架构:文本、视觉语义、图像token被串成一条单流,参数量砍到对手的三分之一,推理效率却拉满。团队还顺手甩出Z-Image-Edit,一句自然语言就能让原图“换头改景”,社区玩家即刻可玩。
阿里尚未官宣是否完全开源,但模型已上架ModelScope与Hugging Face,pull request已合并进diffusers主分支,pip一行命令就能加载。一旦企业版API价格放出,Midjourney、Flux们或许得提前思考降价表。
Z-Image的出现像一声发令枪:图像生成赛道正式迈入“轻量高质”时代,算力民主化不再是一句口号——谁家显卡还没16G?
项目地址:https://github.com/Tongyi-MAI/Z-Image
