Stable Diffusion 等模型的出現標誌着圖像生成領域取得了重大進展,但其與自迴歸語言模型的根本區別,阻礙了統一的語言視覺模型的開發。爲解決這一問題,研究人員推出了 Meissonic,它將非自迴歸掩碼圖像建模 (MIM) 文本到圖像技術提升到了與 SDXL 等最先進的擴散模型相媲美的水平。
Meissonic 的核心在於一系列架構創新、先進的位置編碼策略以及優化的採樣條件,這些改進顯著提高了 MIM 的性能和效率。此外,Meissonic 還利用了高質量的訓練數據,集成了基於人類偏好分數的微條件,並採用了特徵壓縮層,進一步增強了圖像的保真度和分辨率。

與 SDXL 和 DeepFloyd-XL 等大型擴散模型不同,Meissonic 僅有10億參數,卻能生成1024×1024分辨率的高質量圖像,並且可以在僅有8GB 顯存的消費級 GPU 上運行,無需任何額外的模型優化。此外,Meissonic 可以輕鬆生成具有純色背景的圖像,而這在擴散模型中通常需要模型微調或噪聲偏移調整。
爲了實現高效的訓練,Meissonic 的訓練過程被分解爲四個精心設計的階段:
第一階段:從海量數據中理解基本概念。 Meissonic 利用經過篩選的 LAION-2B 數據集,在256×256分辨率下進行訓練,學習基礎概念。
第二階段:使用長提示對齊文本和圖像。 訓練分辨率提升至512×512,並使用高質量的合成圖像文本對和內部數據集,提高模型理解長描述性提示的能力。
第三階段:掌握特徵壓縮以實現更高分辨率的生成。 通過引入特徵壓縮層,Meissonic 可以從512×512無縫過渡到1024×1024生成,並使用精選的高質量高分辨率圖像文本對進行訓練。
第四階段:優化高分辨率美學圖像生成。 在這一階段,模型使用較小的學習率進行微調,並加入人類偏好分數作爲微條件,以增強模型生成高質量圖像的性能。
通過一系列定量和定性指標的評估,包括 HPS、MPS、GenEval 基準測試和 GPT4o 評估,Meissonic 表現出優越的性能和效率。與 DALL-E2和 SDXL 相比,Meissonic 在人類性能和文本對齊方面都取得了競爭性的表現,同時也展現出其高效性。
此外,Meissonic 在零樣本圖像到圖像編輯方面也表現出色。在 EMU-Edit 數據集上,Meissonic 在背景更改、圖像內容更改、風格更改、對象移除、對象添加、局部修改和顏色/紋理更改等七種不同操作上均取得了領先的成績,而這一切都無需在特定於圖像編輯的數據或指令集上進行訓練或微調。
項目地址:https://github.com/viiika/Meissonic
論文地址:https://arxiv.org/pdf/2410.08261
