昨晚,一張1024×1024的霓虹漢服大片在RTX4090上只用2.3秒就渲完,顯存指針穩穩停在13GB——阿里通義實驗室丟出的Z-Image-Turbo讓圍觀羣衆瞬間安靜:參數只有6B,卻把20B+的閉源旗艦集體打平,甚至小勝。

image.png

沒有花哨口號,Z-Image直接用成績說話:

-8步採樣即可交付印刷級畫質,消費級顯卡30606G就能跑,16G顯存封頂;

- 超長嵌套中文咒語一次讀懂,從“夜晚的陽光”到“左手奶茶右手手機屏顯今日新聞”自動糾偏,中英文字母不再鬼畫符;

- 皮膚毛孔、玻璃反射、雨霧逆光、電影景深通通在線,Elo人工偏好榜把Z-Image-Turbo擡進開源世界第一梯隊。

image.png

祕訣藏在全新S3-DiT架構:文本、視覺語義、圖像token被串成一條單流,參數量砍到對手的三分之一,推理效率卻拉滿。團隊還順手甩出Z-Image-Edit,一句自然語言就能讓原圖“換頭改景”,社區玩家即刻可玩。

阿里尚未官宣是否完全開源,但模型已上架ModelScope與Hugging Face,pull request已合併進diffusers主分支,pip一行命令就能加載。一旦企業版API價格放出,Midjourney、Flux們或許得提前思考降價表。

Z-Image的出現像一聲發令槍:圖像生成賽道正式邁入“輕量高質”時代,算力民主化不再是一句口號——誰家顯卡還沒16G?

項目地址:https://github.com/Tongyi-MAI/Z-Image