最近,科研團隊聯合推出了一款名爲 Meissonic 的開源 AI 圖像生成模型。驚喜的是,這款模型僅使用了十億個參數,卻能生成高質量的圖像。這種緊湊的設計讓 Meissonic 有潛力在移動設備上實現本地化的文本轉圖像應用。

image.png

這項技術的背後,研發團隊包括阿里巴巴、Skywork AI 以及多所大學的研究者。他們採用了一種獨特的變換器架構和新穎的訓練方法,使得 Meissonic 能夠在普通遊戲 PC 上運行,甚至未來可能在手機上使用。

image.png

Meissonic 的訓練方法採用了一種被稱爲 “遮蔽圖像建模” 的技術,簡單來說,就是在訓練過程中會隱藏圖像的一部分。模型學習如何根據可見的區域和文本描述來重建缺失的部分。這種方式幫助模型理解圖像元素和文本之間的關係。

Meissonic 的架構讓它能夠生成1024x1024像素的高分辨率圖像,無論是逼真的場景還是風格化的文本、表情包,甚至卡通貼紙,都能輕鬆應對。

與傳統的自迴歸模型逐步生成圖像不同,Meissonic 則是通過並行的迭代優化來同時預測所有的圖像信息,這一創新顯著減少了解碼的步驟,大約減少了99% 的時間,大幅提升了圖像生成的速度。

在模型的構建過程中,研究者們經歷了四個步驟:

首先,他們用2億張256x256像素的圖像教授模型基本概念;接着,用1000萬對經過嚴格篩選的圖像 - 文本對提升其文本理解能力;然後,通過增加特殊的壓縮層,使得模型能夠輸出1024x1024像素的圖像;最後,他們進行了微調,結合人類偏好的數據來提升模型的性能。

image.png

有趣的是,儘管 Meissonic 的參數量較小,但在多項基準測試中表現優於一些更大的模型,比如 SDXL 和 DeepFloyd-XL,其在 “人類偏好分數” 上獲得了28.83的高分。此外,Meissonic 還能夠在不額外訓練的情況下進行圖像的修補和擴展,允許用戶輕鬆添加缺失的圖像部分或創造性地增強現有的圖像。

研究團隊認爲,這種方法可能會促進定製 AI 圖像生成器的快速、低成本開發,也有望推動移動設備上文本轉圖像應用的發展。感興趣的朋友們可以在 Hugging Face 上找到演示版本,並在 GitHub 上查看模型的代碼,使用普通8GB 顯存的消費者 GPU 便可輕鬆運行。

demo:https://huggingface.co/spaces/MeissonFlow/meissonic

項目:https://github.com/viiika/Meissonic

劃重點:

🌟 Meissonic 是一款僅用十億個參數就能生成高質量圖像的開源 AI 模型,適合普通遊戲 PC 和未來的移動設備使用。

⚡ 採用並行迭代優化的訓練方法,Meissonic 在圖像生成速度上比傳統模型快99%。

🏆 儘管參數量小,Meissonic 在多項測試中表現超越更大模型,且能實現無訓練的圖像修補和擴展功能。