アリババ・テンション・クワンチームは、最新の画像編集モデルであるQwen-Image-Editを正式にオープンソース化しました。これは、Qwen-Imageに続く通義千問シリーズが画像生成と編集の分野で打ち出す新たな力作です。20Bパラメータを持つマルチモーダル拡散変換器(MMDiT)をベースにした画像編集の基本モデルとして、Qwen-Image-Editは正確なテキスト編集や意味的および外観的な編集において優れた性能を発揮し、特に中国語テキストのレンダリングにおいて業界をリードする成果を収めています。

画期的なテキスト編集:中英文両方の高精度レンダリング

Qwen-Image-EditはQwen-Imageの核心的な利点を引き継ぎ、テキストレンダリング能力をさらに進化させました。英語でも中国語でも、高精細なテキスト編集が可能で、画像内に直接テキストを追加・削除・修正することができ、元のフォントやサイズ、スタイルを保持します。特に中国語のシナリオでは、複数行のレイアウトや段落レベルのテキスト生成、書道対聯などの複雑なレイアウト要件に対応でき、単字レンダリングの正確率は97.29%に達し、Seedream3.0(53.48%)やGPT Image1(68.37%)など他のトップモデルを大きく上回っています。

例えば、Qwen-Image-Editはポスター上の「Hope」を「Qwen」に簡単に置き換えたり、書道作品中の誤った文字を修正しながらも、画像全体の視覚的一貫性を保つことができます。このような正確なテキスト編集能力により、広告デザイン、ブランド宣伝、コンテンツ制作などの分野での大きな可能性があります。

image.png

二重符号化機構:意味と外観の完璧なバランス

Qwen-Image-Editのコア技術革新はその二重符号化機構です。画像編集の際、入力画像はQwen2.5-VLモデルによって意味的に符号化され、高次のシーンやオブジェクト関係の特徴を抽出されます。また、変分自己符号化器(VAE)によって再構成符号化され、テクスチャーや色などの低次の視覚的詳細が保持されます。この機構により、モデルは複雑な編集指示を実行する際に、意味的意図を理解しつつ、視覚的忠実度を維持できます。

例えば、意味編集では、画像内の人物の姿勢を「曲がって犬の足を引く」に調整することができますが、人物の識別や背景は一貫して保持されます。外観編集では、現実的な反射を持つ看板などを正確に追加したり、髪の毛のような微細なディテールを除去したりすることができ、他の領域は変更されません。この「意味+外観」の二重制御により、IP創作、スタイル移動、新しい視点合成などの場面で特に優れた性能を発揮します。

多タスク学習:編集の一貫性の業界リード

強化された多タスク学習の枠組みを通じて、Qwen-Image-Editはテキストから画像(T2I)、画像から画像(I2I)、テキスト誘導型画像編集(TI2I)などのさまざまなタスクをサポートしています。GEdit、ImgEdit、GSOなどの画像編集ベンチマークテストでSOTA性能を達成し、総合スコアはそれぞれ7.56(英語)と7.52(中国語)に達し、GPT Image1やFLUX.1Kontextなどの競合他社を上回っています。

注目すべきは、Qwen-Image-Editの「チェーンエディット」機能が特に突出している点です。例えば、書道の誤り訂正のシナリオでは、モデルが複数のイテレーションを経て誤った文字を徐々に修正しながらも、全体のスタイルを一貫して保持できます。この機能は創作効率を大幅に向上させ、専門的なビジュアルコンテンツ制作の障壁を低下させます。

オープンソースによる支援:グローバルAIクリエーションエコシステムの促進

Qwen-Image-EditはApache 2.0ライセンスに基づいて完全にオープンソースであり、ユーザーはHugging FaceやModelScopeなどのプラットフォームから無料でモデルの重みを取得したり、Qwen Chatの「画像編集」機能でオンライン体験したりできます。アリババはComfyUIにもネイティブサポートを提供し、詳細な技術報告書と迅速な導入ガイドを公開しており、開発者に素早く統合するための支援を行っています。

SNS上では、Qwen-Image-Editのリリースに対する開発者の反響は熱烈で、「中国語のレンダリングと画像編集能力を商業用途レベルまで引き上げた」と評価されており、一部のユーザーはその結果が「GPT-4oやFLUX.1を超えるか、それ以上である」と述べています。さらに、モデルはMajicBeauty LoRAなどの多くのLoRAモデルをサポートしており、高リアル感画像生成における応用範囲をさらに拡張しています。

応用場面:クリエイティブデザインから商業への実装

Qwen-Image-Editの多機能性により、以下のさまざまなシナリオに適用可能です:

  • ポスターと広告デザイン: 視覚的インパクトのある宣伝ポスターの生成を可能にし、複雑なテキストレイアウトやスタイル移動をサポートします。
  • IPコンテンツ創作: ブランドのマスコットキャラクター(例:Qwenのカピバラ)を基にMBTIテーマの表情パックを生成し、キャラクターの一貫性を保持します。
  • 教育とトレーニング: 高品質な図解やグラフを迅速に生成し、カリキュラムの視覚的魅力を向上させます。
  • ゲームと映画: キャラクターのデザイン、背景生成、新視点合成をサポートし、資産開発プロセスを最適化します。

ユーザーからのフィードバックによると、Qwen-Image-Editの直感的な操作と高品質な出力を備えているため、非専門のデザイナーにとって理想的なツールとなっています。あるコンテンツクリエイターは、「Qwen-Image-Editにより、私は数分でマーケティングのビジュアルデザインを完了でき、テキストレンダリングは正確で、効果は専門ソフトウェアと同等です」と述べています。

アリババ・テンション・クワンチームの最新の力作として、Qwen-Image-Editは強力なテキスト編集能力、二重符号化機構、そしてオープンソース特性を通じて、AI画像生成と編集分野に新たな基準を設けています。中国語のレンダリングにおける断層的なリード、または意味と外観の編集におけるバランスの取れた表現において、Qwen-Image-Editは業界トップモデルとしての実力を示しています。

github:https://github.com/QwenLM/Qwen-Image