2阿里巴巴通義實驗室今日正式開源 Z-Image-Turbo-Fun-Controlnet-Union,這款全新 ControlNet 模型標誌着其 Z-Image 系列圖像生成生態的重大擴展。作爲 AIbase 獨家追蹤的開源 AI 動態,此次發佈進一步強化了 Z-Image-Turbo 在精確控制與創意生成方面的領先優勢,迅速引發全球開發者與創作者的熱議。

image.png

模型已在 Hugging Face 平臺上線,支持 Apache2.0許可,適用於商用場景。發佈背景與技術基礎Z-Image 系列自11月底首發以來,已迅速登頂 Hugging Face 趨勢榜,首日下載量突破50萬次。

該系列以單流擴散架構爲核心,僅6億參數卻實現照片級真實感渲染,包括皮膚紋理、髮絲細節及光影美學優化。Z-Image-Turbo 作爲快速推理版本,僅需8步採樣即可生成1024x1024分辨率圖像,推理時間低至9秒(RTX4080硬件),並在提示詞理解上支持中英混合文本渲染,顯著提升了創作效率。

image.png

 此次 Z-Image-Turbo-Fun-Controlnet-Union 的推出,是對 Z-Image-Turbo 的深度擴展。它在模型的6個核心塊上集成 ControlNet 結構,兼容 Canny 邊緣檢測、HED 邊界提取及 Depth 深度映射等多模態控制條件。該模型專爲複雜場景設計,如人物姿態精確生成及基於線稿的建築渲染,目前通過 Python 代碼實現集成,ComfyUI 等工作流支持即將跟進。

核心功能與應用亮點

  • 多條件控制融合:支持姿態、邊緣與深度信息的聯合輸入,實現“零失真”圖像操控。開發者可輕鬆構建從草圖到成品的自動化管道,適用於電商視覺設計、影視特效及遊戲原型製作。
  • 高效兼容性:繼承 Z-Image-Turbo 的輕量架構,僅需6GB VRAM 即可運行,遠低於傳統 ControlNet 模型的硬件門檻。測試顯示,在低端 GPU 上生成速度達250秒/5步,平衡了質量與實時性。
  • 開源生態賦能:模型提供4-bit 量化版本(如 MFLUX 兼容),便於 Mac 等消費級設備部署。同時,Z-Image-Edit 變體增強了複合編輯指令理解,保持畫面一致性。

這些功能不僅降低了 AI 圖像生成的門檻,還爲非專業用戶打開了專業級創作大門。社區反饋顯示,該模型在廣告素材生成中,提示詞忠實度超越 OVIS Image 等競品。 

社區反響與未來展望開源社區對 Z-Image-Turbo-Fun-Controlnet-Union 的響應熱烈,Reddit 與 X 平臺上涌現大量基準測試,包括名人面部識別及 K-pop 偶像生成實驗,結果顯示其在辨識度與自然度上表現出色。開發者讚譽其“按着 Flux 打”的效率優勢,尤其在低 CFG Scale(2-3)下的穩定輸出。 AIbase 分析,此次發佈強化了阿里巴巴在開源 AI 領域的全球競爭力。

未來,預計將與 Z-Image-Base 版本聯動,形成完整圖像生成-編輯-控制閉環。

 Hugging Face :https://huggingface.co/alibaba-pai/Z-Image-Turbo-Fun-Controlnet-Union