アリタヨンは、最新の画像生成モデルであるZ-Imageを正式に発表しました。このモデルは発表初日にHugging Faceのトレンドランキングですぐにトップに上がり、ダウンロード数は驚くべき50万回に達しました。Z-Imageは6億パラメータのみで、大規模モデルと同等の写実的な質を実現し、肌の質感、髪の毛の細部、自然な光と影、素材の模様を正確に再現することができます。美学的な構図と雰囲気を表現しています。

image.png

Z-Imageには、Z-Image-Turboという最適化バージョンも登場します。このバージョンは、高品質な画像を生成する際にはたった8ステップの推論で済むため、日常的な創作やポスター設計、迅速なプロトタイプ作成に特に適しています。複雑なテキストレイアウト環境でも、中英文混合のテキストを正確にレンダリングし、文字が明確でありながら、顔のリアルさと全体の美しさを両立させます。

このモデルは広範な現実世界の知識を持ち、エッフェル塔や故宮などの有名なランドマークを生成でき、細部、比例、文脈において現実と一致します。プロンプトエナジーアシスタントを通じて、Z-Imageは複雑なタスクを理解し処理できるだけでなく、単なる描画能力ではなく、理解した上で創作を行う能力も備えています。

また、Z-Image-Editは複雑な複合編集指示の実行に特化しており、「人物が笑顔 + 頭を向けた + 背景を桜に変更 + 中文のキャッチコピーを追加」といった指示に対応できます。大幅な修正においても、照明、顔の認識、スタイルの高い一貫性を保ち、一般的なずれや歪みの問題を避けています。

データ面では、Z-Imageは効率的なデータエコシステムを構築し、「正しいデータ」を使って訓練効率を向上させることを目的としています。モデルアーキテクチャでは、単一流の拡散Transformer(S³-DiT)を使用し、パラメータの使用効率を効果的に高めています。訓練过程中では、三段階の段階的戦略によって世界の知識を体系的に注入し、Z-Image-Turboによりリアルタイムでの高品質な生成を実現します。

  • GitHub:https://github.com/Tongyi-MAI/Z-Image

  • Hugging Face:https://huggingface.co/Tongyi-MAI/Z-Image-Turbo

ポイント:  

🌟 Z-Imageモデルは発表初日に50万回のダウンロードを記録し、Hugging Faceのトレンドランキングでトップに上がりました。  

🎨 Z-Imageは6億パラメータで高品質な写実的な質を実現し、テキストレンダリングにも対応しています。  

🚀 Z-Image-TurboとZ-Image-Editは、効率的な画像生成と編集機能を提供しています。