2 アリババ・トングイ研究所は今日、Z-Image-Turbo-Fun-Controlnet-Unionを正式にオープンソース化しました。この新しいControlNetモデルは、Z-Imageシリーズの画像生成エコシステムにおける重要な拡張を示しています。AIbaseが独自に追跡しているオープンソースAIの動向として、今回のリリースはZ-Image-Turboの正確な制御と創造的な生成における優位性をさらに強化し、世界中の開発者やクリエイターから大きな注目を集めています。

image.png

モデルはHugging Faceプラットフォームで公開されており、Apache2.0ライセンスで商用利用が可能です。リリース背景と技術基盤 Z-Imageシリーズは11月下旬に初登場して以来、すぐにHugging Faceのトレンドリストに登録され、初日で50万回以上のダウンロードを記録しました。

このシリーズは単一ストリームの拡散アーキテクチャを核心としており、6億パラメータで写真のようなリアルなレンダリングを実現し、肌の質感、髪の毛の細部、光の美学最適化などが含まれます。Z-Image-Turboは高速推論バージョンであり、1024x1024解像度の画像を生成するのにわずか8ステップのサンプリングで済み、推論時間はRTX4080ハードウェアでわずか9秒で、プロンプトの理解において中英語混合テキストのレンダリングをサポートしており、著しく創作効率を向上させています。

image.png

 今回のZ-Image-Turbo-Fun-Controlnet-Unionのリリースは、Z-Image-Turboへの深い拡張です。このモデルでは、6つの主要なブロックにControlNet構造を統合しており、Cannyエッジ検出、HED境界抽出およびDepth深度マッピングなどのマルチモーダルな制御条件に対応しています。このモデルは複雑なシナリオのために設計されており、人物ポーズの正確な生成やスケッチに基づく建築レンダリングなどに適しています。現在はPythonコードによって統合されており、ComfyUIなどのワークフローのサポートも直近で予定されています。

コア機能と応用の特徴

  • 多条件制御の統合: ポーズ、エッジ、および深度情報の同時入力をサポートし、「ゼロノイズ」の画像操作を実現します。開発者は簡単にスケッチから完成品までの自動化パイプラインを作成でき、eコマースのビジュアルデザイン、映画特撮、ゲームのプロトタイプ制作などに適用されます。
  • 効率的な互換性: Z-Image-Turboの軽量アーキテクチャを継承しており、6GB VRAMで動作可能で、伝統的なControlNetモデルよりはるかに低いハードウェア要件です。テスト結果によると、低性能GPUでも生成速度は250秒/5ステップで、品質とリアルタイム性のバランスを取っています。
  • オープンソースエコシステムの支援: 4-bit量子化バージョン(MFLUXとの互換性あり)が提供されており、Macなどの消費者向けデバイスでの展開が容易です。また、Z-Image-Edit変種は複合編集指示の理解を強化し、画面の一貫性を維持しています。

これらの機能は、AI画像生成の門檻を下げ、非専門家にもプロ級の創作の扉を開きました。コミュニティからのフィードバックによると、このモデルは広告素材生成において、OVIS Imageなどの競合製品よりもプロンプトの忠実度が高くなっています。

コミュニティの反応と今後の展望 オープンソースコミュニティはZ-Image-Turbo-Fun-Controlnet-Unionに対して熱烈な反応を示しており、RedditやXのプラットフォーム上には多くのベンチマークテストが出現しました。これは、有名人の顔認識やK-popアイドルの生成実験を含んでおり、その識別力と自然さが優れていることが示されています。開発者たちは「Fluxに似た効率」と称賛しており、特にCFG Scaleが2〜3の範囲で安定した出力を提供しています。AIbaseの分析によると、今回のリリースにより、アリババはオープンソースAI分野におけるグローバルな競争力を強化しています。

今後、Z-Image-Baseバージョンと連携し、完全な画像生成ー編集ー制御のサイクルを形成する予定です。

 Hugging Face :https://huggingface.co/alibaba-pai/Z-Image-Turbo-Fun-Controlnet-Union