アリババの大規模モデルチームは今日、画像生成と編集を統一したモデル「Wan2.7-Image」を正式にリリースしました。前バージョンと比較して、このモデルは肖像のカスタマイズ性、色調の制御および長文のレンダリングにおいて質的な飛躍を遂げており、AIが生成する画像でよくある「千篇一律」感を打ち破ることを目的としています。

現在、このモデルはアリババクラウドの百煉プラットフォームでAPIが公開されており、万相公式サイトでも体験が可能です。

image.png

コアアップグレード:仮想の「顔の整形」と正確なカラーパレット

Wan2.7-Imageには業界で画期的な差別化機能が導入され、創作の自由度が大きく向上しています:

  • 一人ひとり異なる顔: 仮想キャラクターの「顔の整形」能力を強化しました。ユーザーはプロンプトを使って骨格や目元(例えば杏仁眼や丹鳳眼)そして顔の細部を正確に制御でき、標準化されたAIの顔から完全に離れることができます。

  • 正確なカラーパレット: カラーコントロール機能を新たにサポートしました。ユーザーは参照画像の色割合を抽出でき、例えばビン・ゴッホの明るい黄色やピカソの冷たい青色など、あらゆる色合いを新しい作品に正確に再現できます。

  • 3Kトークンの超長文章レンダリング: AIによる文字入力の課題を解決し、最大12言語をサポートし、A4用紙サイズの複雑な文章や表、数式を印刷品質でレンダリングすることが可能です。

画像編集分野では、Wan2.7-Imageは「インタラクティブな編集」機能を導入しました。ユーザーは指定された領域を正確に選択することで、要素の追加、整列、移動、さらにはピクセルレベルでの論理的な置き換え(例:氷を果物に変えるが、環境の光と影は変えない)が可能になります。

image.png

さらに、このモデルは最大12枚の画像をまとめて生成でき、複数の主体(例えば集合写真や家具の組み合わせ)がそれぞれの画面でスタイルと特徴が非常に統一されていることを保証します。

アリババは、Wan2.7-Imageが生成と理解を統一したモデル構造を採用していると述べています。共有された隠れ空間(Latent Space)で意味のマッピングを実現し、モデルは文字に対応するピクセルを盲目的に推測するのではなく、真正に下層の意味を理解する能力を持っています。