近期,生成模型的發展突顯了圖像標記化在高分辨率圖像高效合成中的關鍵作用。圖像token化將圖像轉換爲潛在表示,相比直接處理像素,降低了計算需求,增強了生成過程的有效性和效率。然而,先前的方法(如 VQGAN)通常利用固定的2D 潛在網格進行標記化,面臨着管理圖像中固有冗餘的挑戰,其中相鄰區域經常呈現相似性。
爲了克服這一問題,研究人員引入了基於 Transformer 的一維標記化框架 TiTok,這種創新方法將圖像標記化爲一維潛在序列。TiTok 是一個緊湊的一維標記器,可以用少至32個離散token來表示256×256圖像。因此,它大大加快了採樣過程(例如,比 DiT-XL/2快410×),同時獲得具有競爭力的生成質量。

TiTok 提供了更緊湊的潛在表示,比傳統技術產生了更加高效和有效的表示。例如,一個256×256×3的圖像可以僅縮減爲32個離散token,遠遠少於先前方法得到的256或1024個token。儘管緊湊,TiTok 實現了與最先進方法相媲美的性能。

具體來說,使用相同的生成器框架,TiTok 在 ImageNet256×256基準測試中達到了1.97的 gFID,明顯優於 MaskGIT 基準4.21。TiTok 的優勢在處理更高分辨率圖像時變得更加顯著。
在 ImageNet512×512基準測試中,TiTok 不僅勝過最先進的擴散模型 DiT-XL/2(gFID2.74vs.3.04),還將圖像token減少了64倍,生成速度提高了410倍。TiTok最佳的變體在仍然生成高質量樣本的情況下顯著超越了 DiT-XL/2(gFID2.13vs.3.04),生成速度提高了74倍。
TiTok 的應用場景涵蓋了各種需要高效合成高分辨率圖像的領域,如計算機視覺、圖像處理、藝術創作等。
