アリババ・テンセントがZ-Imageモデルを発表、初日で50万回のダウンロードを達成

アリタヨンは、最新の画像生成モデルであるZ-Imageを正式に発表しました。このモデルは発表初日にHugging Faceのトレンドランキングですぐにトップに上がり、ダウンロード数は驚くべき50万回に達しました。Z-Imageは6億パラメータのみで、大規模モデルと同等の写実的な質を実現し、肌の質感、髪の毛の細部、自然な光と影、素材の模様を正確に再現することができます。美学的な構図と雰囲気を表現しています。

Z-Imageには、Z-Image-Turboという最適化バージョンも登場します。このバージョンは、高品質な画像を生成する際にはたった8ステップの推論で済むため、日常的な創作やポスター設計、迅速なプロトタイプ作成に特に適しています。複雑なテキストレイアウト環境でも、中英文混合のテキストを正確にレンダリングし、文字が明確でありながら、顔のリアルさと全体の美しさを両立させます。

このモデルは広範な現実世界の知識を持ち、エッフェル塔や故宮などの有名なランドマークを生成でき、細部、比例、文脈において現実と一致します。プロンプトエナジーアシスタントを通じて、Z-Imageは複雑なタスクを理解し処理できるだけでなく、単なる描画能力ではなく、理解した上で創作を行う能力も備えています。

また、Z-Image-Editは複雑な複合編集指示の実行に特化しており、「人物が笑顔 + 頭を向けた + 背景を桜に変更 + 中文のキャッチコピーを追加」といった指示に対応できます。大幅な修正においても、照明、顔の認識、スタイルの高い一貫性を保ち、一般的なずれや歪みの問題を避けています。

データ面では、Z-Imageは効率的なデータエコシステムを構築し、「正しいデータ」を使って訓練効率を向上させることを目的としています。モデルアーキテクチャでは、単一流の拡散Transformer（S³-DiT）を使用し、パラメータの使用効率を効果的に高めています。訓練过程中では、三段階の段階的戦略によって世界の知識を体系的に注入し、Z-Image-Turboによりリアルタイムでの高品質な生成を実現します。

GitHub:https://github.com/Tongyi-MAI/Z-Image
Hugging Face:https://huggingface.co/Tongyi-MAI/Z-Image-Turbo

ポイント:
🌟 Z-Imageモデルは発表初日に50万回のダウンロードを記録し、Hugging Faceのトレンドランキングでトップに上がりました。
🎨 Z-Imageは6億パラメータで高品質な写実的な質を実現し、テキストレンダリングにも対応しています。
🚀 Z-Image-TurboとZ-Image-Editは、効率的な画像生成と編集機能を提供しています。

アリババ・タオイー研究所がまた画期的な製品を発表！Z-Image-Turbo-Fun-Controlnet-Union オープンソース 6BパラメータでFluxを凌駕

アリババ・タオイー研究所がZ-Image-Turbo-Fun-Controlnet-Unionモデルをオープンソースとして公開しました。Z-Imageシリーズの画像生成エコシステムを拡張しています。このモデルは正確な制御と創造的な生成能力を強化しており、Hugging Faceで公開されています。Apache2.0ライセンスを使用し、商用利用が可能です。

6Bパラメータ、16Gグラフィックメモリ、8ステップで画像生成：アリバのZ-Imageが数百億パラメーターモデルを打ち負かす

アリババの通義実験室がZ-Image-Turboを発表。6Bパラメータで20B+モデル並みの性能を実現。RTX4090で1024×1024画像を2.3秒生成、VRAM使用量13GB。8ステップで印刷品質を達成し、3060 6Gなど民生GPUにも対応（最大16GB）。複雑な中国語プロンプトを正確に理解。....

アリババがZ-Image画像モデルをオープンソース化：中国語と英語の両言語文字のレンダリングをサポート

アリババがZ-Image画像生成モデルをオープンソース化しました。わずか6Bパラメータで効率的な生成と編集が可能で、視覚的品質は20Bレベルの商業モデルに近いです。このモデルは単一ストリームのDiTアーキテクチャを使用しており、生成速度が速く、リソース消費が少ないため、AI画像ツールの一般消費者向けアプリケーションの普及が期待されます。

通義万相オープンソース動画生成モデルWan2.1：8.2GBのVRAMで480P動画生成が可能

最近、通義は最新の通義万相大規模モデルWan2.1のオープンソース化を発表しました。Wan2.1は、高品質な動画生成に特化したAIモデルであり、複雑な動き処理、現実的な物理法則の再現、映画のような質感の向上、指示への遵守の最適化において優れた性能を発揮し、クリエイター、開発者、企業ユーザーにとってAI時代を切り開くための最適なツールとなっています。

わずか10億パラメーター！AI画像生成モデルMeissonic AIがスマホで高画質画像生成