近期,來自香港大學和字節跳動的研究團隊發佈了一項名爲 LlamaGen 的創新技術,將大型語言模型的原始下一個標記預測範式應用於視覺生成領域。通過重新審視圖像分詞器的設計空間、圖像生成模型的可伸縮性屬性及其訓練數據質量,他們成功開發出一種新型的圖像生成模型,稱爲 LlamaGen。

產品入口:https://top.aibase.com/tool/llamagen
LlamaGen 是對傳統圖像生成模型的一次顛覆性創新,它證明了即使在沒有視覺信號歸納偏差的情況下,普通的自迴歸模型也能夠實現領先的圖像生成性能,只要合理地進行規模化處理。LlamaGen自迴歸即Transformer的輸出下一個token作爲預測再下一個token的輸入,使用的是LLaMA架構,沒有使用Diffusion模型。這一發現給圖像生成領域帶來了新的可能性和啓發,爲未來的圖像生成研究提供了新的思路和方向。
LlamaGen特點包括:
圖像分詞器:推出了具有16倍降採樣比、0.94的重建質量和97% 碼書利用率的圖像分詞器,在 ImageNet 基準測試上表現優異。

類別條件圖像生成模型:推出了從111M 到3.1B 參數範圍內的一系列類別條件圖像生成模型,在 ImageNet256×256基準測試上取得了2.18的 FID,超越了流行的擴散模型。


文本條件圖像生成模型:推出了具有775M 參數的文本條件圖像生成模型,經過 LAION-COCO 的兩階段訓練,能夠生成高質量的美學圖像,並展現出優秀的視覺質量和文本對齊性能。

服務框架 vllm:驗證了 LLM 服務框架在優化圖像生成模型推斷速度方面的有效性,實現了326% 至414% 的加速。

在該項目中,研究團隊發佈了兩種圖像分割器、七種類條件生成模型和兩種文本條件生成模型,同時提供了在線演示和高吞吐量的服務框架。這些模型和工具的發佈,爲開發者和研究人員提供了豐富的資源和工具,使他們能夠更好地理解和應用 LlamaGen 技術。
