多模態生成模型正引領人工智能的最新潮流,致力於融合視覺與文本數據,創造出能完成多種任務的系統。這些任務從根據文字描述生成高細節的圖像到跨數據類型的理解與推理,推動着更互動、智能的 AI 系統的誕生,令視覺和語言無縫結合。

在這個領域,一個關鍵的挑戰是開發自迴歸(AR)模型,使其能夠根據文本描述生成逼真的圖像。儘管擴散模型在這一領域取得了顯著進展,但自迴歸模型的表現卻相對滯後,尤其是在圖像質量、分辨率靈活性以及處理各種視覺任務的能力方面。這一差距促使研究人員尋找創新方法,以提升 AR 模型的能力。

image.png

當前,文本轉圖像生成的領域大多被擴散模型佔據,這些模型在生成高質量、視覺吸引力十足的圖像方面表現優異。然而,像 LlamaGen 和 Parti 這樣的 AR 模型在這一方面卻顯得力不從心。它們往往依賴複雜的編碼 - 解碼架構,並且通常只能生成固定分辨率的圖像。這種限制大大降低了它們在生成多樣化、高分辨率輸出方面的靈活性和有效性。

爲了打破這一瓶頸,上海 AI 實驗室和香港中文大學的研究人員推出了 Lumina-mGPT,這是一種先進的 AR 模型,旨在克服這些限制。Lumina-mGPT 基於解碼器 - only 的變換器架構,採用了多模態生成預訓練(mGPT)的方法。該模型將視覺與語言任務融入統一框架,目標是實現與擴散模型同等水平的逼真圖像生成,同時保持 AR 方法的簡便和可擴展性。

image.png

Lumina-mGPT 在增強圖像生成能力方面採取了一種詳盡的方法,其核心是靈活漸進的監督微調(FP-SFT)策略。該策略從低分辨率逐步訓練模型生成高分辨率圖像,首先在較低分辨率下學習一般的視覺概念,然後逐步引入更復雜的高分辨率細節。此外,該模型還引入了一種創新的明確圖像表示系統,通過引入特定的高度和寬度指示符以及行尾標記,消除了與可變圖像分辨率和縱橫比相關的模糊性。

在性能方面,Lumina-mGPT 在生成逼真圖像方面顯著超越了之前的 AR 模型。它能夠生成1024×1024像素的高分辨率圖像,細節豐富,與提供的文本提示高度一致。研究人員報告稱,Lumina-mGPT 僅需1000萬對圖像 - 文本進行訓練,遠低於 LlamaGen 所需的500萬對圖像 - 文本。儘管數據集較小,Lumina-mGPT 在圖像質量和視覺一致性方面依然超越了競爭對手。此外,該模型支持視覺問答、密集標註和可控圖像生成等多種任務,展現出其作爲多模態通才的靈活性。

其靈活且可擴展的架構進一步增強了 Lumina-mGPT 生成多樣化、高質量圖像的能力。該模型使用先進的解碼技術,如無分類器引導(CFG),在提高生成圖像質量方面發揮着重要作用。比如,通過調整溫度和 top-k 值等參數,Lumina-mGPT 可以控制生成圖像的細節和多樣性,幫助減少視覺僞影,提升整體美觀。

Lumina-mGPT 在自迴歸圖像生成領域標誌着重大的進步。這一由上海 AI 實驗室和香港中文大學的研究人員開發的模型,成功架起了 AR 模型與擴散模型之間的橋樑,爲從文本生成逼真圖像提供了強有力的新工具。其在多模態預訓練和靈活微調方面的創新方法,展示了 AR 模型潛在的變革能力,預示着未來將有更加複雜和多才多藝的 AI 系統誕生。

項目地址:https://top.aibase.com/tool/lumina-mgpt

在線試玩地址:https://106.14.2.150:10020/