由港大和字節的研究人員共同開發的LlamaGen是一個基於自迴歸模型Llama的圖像生成方法,它在圖像生成領域展現出了超越傳統擴散模型的潛力。

LlamaGen的開源發佈,迅速在GitHub上獲得了近900顆星標的認可。這一成果不僅證明了自迴歸模型在圖像生成上的競爭力,還爲開源社區帶來了新的活力和創新動力。

在ImageNet測試基準上,LlamaGen的表現超越了LDM、DiT等擴散模型,這一成果得益於研究團隊對自迴歸模型架構的深入理解和優化。他們通過重新訓練Image Tokenizer,在ImageNet和COCO上取得了優於以往Tokenizers的成績,包括VQGAN,ViT-VQGAN和MaskGI等。

image.png

LlamaGen的技術實現基於幾個關鍵設計原則:圖像壓縮/量化器、可擴展的圖像生成模型,以及高質量的訓練數據。研究團隊採用了與VQ-GAN相似的CNN架構,將連續圖像轉化爲離散Token,並在兩個階段的訓練過程中,顯著提升了圖像的視覺質量和分辨率。

項目地址:https://top.aibase.com/tool/llamagen

在線體驗地址:https://huggingface.co/spaces/FoundationVision/LlamaGen

在第一階段,模型在LAION-COCO的50M子集上進行訓練,圖像分辨率爲256×256。研究團隊通過篩選有效圖像URL、美學分數、水印分數等,精選出高質量的圖像數據集。第二階段則在1千萬規模的內部高美學質量圖像上進行微調,圖像分辨率提升至512×512,進一步提升了生成圖像的視覺質量。

LlamaGen的優勢在於其出色的Image Tokenizer和Llama架構的擴展性。在實際生成過程中,LlamaGen在FID、IS、Precision和Recall等指標上展現出了極強的競爭力。與之前的自迴歸模型相比,LlamaGen在各個參數量級上均表現出色。

儘管LlamaGen已經取得了顯著的成果,但研究人員也指出,目前的LlamaGen只是做到了Stable Diffusion v1階段。未來的改進方向包括更大的分辨率、更多的Aspect Ratio、更高的可控性,以及視頻生成等。

目前,LlamaGen已經支持在線體驗,感興趣的朋友可以直接訪問Hugging Face上的LlamaGen空間,親自嘗試這一革命性的圖像生成技術。此外,LlamaGen的開源發佈,爲全球的開發者和研究者提供了一個共同參與和貢獻的平臺。