画像生成分野において、技術の進歩は仮想現実などの応用分野の発展を絶えず推進しています。最近、サムスン研究所は、画像生成の忠実度と拡張性を向上させることを目的とした、自己回帰モデリングに基づく新しい手法を発表しました。従来のシーン全体を一度に生成する手法とは異なり、この手法は段階的にディテールを追加していく戦略を採用しており、画像生成のプロセスが人間の創作習慣により合致するようになっています。

この新しい手法の中核は、画像生成を「基礎」と「ディテール」の2つの階層に分けることにあります。まず、滑らかな基礎画像を生成し、その後、反復的な方法で段階的にディテールを追加することで、最終的に一貫性のある高品質な画像を生成します。研究チームは、この階層的な組み合わせ戦略は従来の手法よりも効果的であり、特に高解像度画像の処理において、優れた拡張性を持ち、モデル全体を再トレーニングする必要がないことを強調しています。

image.png

自己回帰モデルの学習過程において、画像ラベルの処理順序は生成結果に大きな影響を与えます。サムスンの研究チームは、革新的なエッジ感知平滑化技術を用いることで、トレーニング画像を異なる細かい階層に分解し、ディテールの増分制御を実現しました。この手法は人間の芸術創作のプロセスと似ており、アーティストは通常、スケッチから始めて、徐々に形状とディテールを完成させていきます。

このモデルのトレーニングは、主に3つのステップからなります。まず、各トレーニング画像を複数の階層の基本的なディテール要素に分解します。次に、ベクトル量子化変分自己符号化器(VQ-VAE)を使用してこれらの要素を符号化し、次元数を削減しながら画像の重要な特徴を保持します。最後に、Transformerデコーダアーキテクチャを使用してディテール要素の反復予測を行い、画像ディテールの制御と段階的な追加を実現します。

image.png

実験結果によると、この手法は画像生成の質において最先端レベルに達し、高解像度出力に関連する計算複雑性も効果的に低減しました。この革新的な自己回帰画像生成フレームワークは、拡散モデルなどの他の技術に対する強力な代替手段を提供し、将来の画像生成技術の広大な可能性を示しています。