3月18日、MidjourneyはそのV8モデルの初期バージョンを正式にリリースしました。アーキテクチャの大きなアップデートとして、V8モデルはAlphaサイトに公開された直後から業界の注目を集め、画像生成の速度が前バージョンより約5倍に向上しました。

今回のアップデートでは、2K解像度の画像をネイティブにレンダリングする--hdモードが導入され、画像の一貫性を高めるための--q4パラメータも追加されました。技術的には、V8は複雑で長いテキスト指令に従う能力が大幅に向上し、特に画像内に埋め込まれたテキストのレンダリングにおいて、引用符の認識メカニズムにより高い正確性を実現しています。

性能が大きく向上したにもかかわらず、Midjourneyは依然として1000%の純粋な拡散モデルのパスを堅持しています。グーグルのNano BananaやOpenAIのGPT Image1.5など、自己回帰(AR)コンポーネントを組み込んだハイブリッドアーキテクチャモデルと比較すると、V8は非常に論理的要件が高い抽象的な指示(特定の役割の位置を入れ替えるなど)を処理する際には制限があります。

QQ20260319-105232.jpg

これに対応するため、公式は超高精細な描写を目指すユーザーに対して、--rawモードやスタイル参照機能を使用することを推奨しています。また、注意すべき点として、性能向上に伴いコストが増加しています:ハイビジョンおよび高一貫性モードで作業を行う場合、単一の作業時間と費用は標準モードの4倍となり、リリース当初は「リラックスモード」という非時間のかかるモードはサポートされていません。

現在、AIペインティング分野は自己回帰モデルと拡散モデルの統合に向かって加速している中、Midjourney V8のリリースは、拡散モデルが効率の限界をさらに突破したことを示しています。しかし、高い計算力のプレミアムと複雑な論理理解のボトルネックが存在することから、純粋な拡散アーキテクチャがますます増加する正確なコントロールの要請に直面していることがわかります。