近年、生成モデルの発展により、高解像度画像の効率的な合成において、画像のトークン化が重要な役割を果たすことが明らかになりました。画像トークン化は、画像を潜在表現に変換することで、画素を直接処理する場合に比べて計算コストを削減し、生成プロセスの効率性と有効性を向上させます。しかし、従来の方法(VQGANなど)は、固定された2D潜在グリッドを用いたトークン化を行うことが多く、隣接領域が類似していることがよくある画像固有の冗長性を管理することに課題がありました。

この問題を克服するために、研究者らはTransformerベースの1次元トークン化フレームワークであるTiTokを導入しました。この革新的な方法は、画像を1次元の潜在シーケンスとしてトークン化します。TiTokはコンパクトな1次元トークナイザーであり、256×256の画像をわずか32個の離散トークンで表現できます。そのため、サンプリングプロセスが大幅に高速化され(例えば、DiT-XL/2よりも410倍高速)、同時に競争力のある生成品質が得られます。

image.png

TiTokは、従来技術よりもコンパクトな潜在表現を提供し、より効率的で効果的な表現を実現します。例えば、256×256×3の画像は、わずか32個の離散トークンに圧縮でき、従来の方法で得られる256個または1024個のトークンよりもはるかに少なくなります。コンパクトであるにもかかわらず、TiTokは最先端の方法と同等の性能を実現しています。

image.png

具体的には、同じジェネレータフレームワークを用いて、TiTokはImageNet256×256ベンチマークで1.97のgFIDを達成し、MaskGITベンチマークの4.21を大幅に上回りました。TiTokの優位性は、より高解像度の画像を処理する場合にさらに顕著になります。

ImageNet512×512ベンチマークでは、TiTokは最先端の拡散モデルであるDiT-XL/2(gFID 2.74対3.04)を上回っただけでなく、画像トークン数を64分の1に削減し、生成速度を410倍向上させました。TiTokの最適化されたバージョンは、高品質なサンプルを生成しながら、DiT-XL/2(gFID 2.13対3.04)を大幅に上回り、生成速度を74倍向上させました。

TiTokの適用範囲は、コンピュータビジョン、画像処理、芸術創作など、高解像度画像の効率的な合成が必要な様々な分野に及びます。