谷歌 DeepMind 聯合麻省理工學院(MIT)近日發佈了一項重大研究成果。研究團隊開發的新型自迴歸模型"Fluid"在文本到圖像生成領域取得了突破性進展,該模型在擴展到105億參數規模後,性能表現出色。
這項研究顛覆了業界普遍認知。此前,自迴歸模型雖然在語言處理領域佔據主導地位,但在圖像生成方面一直被認爲不如 Stable Diffusion 和 Google Imagen3等擴散模型。研究人員通過創新性地引入兩個關鍵設計因素,顯著提升了自迴歸模型的性能和可擴展性:採用連續型詞元替代離散型詞元,以及引入隨機生成順序取代固定順序。
在圖像信息處理方面,連續型詞元的優勢明顯。傳統的離散型詞元會將圖像區域編碼爲有限詞彙表中的代碼,這種方式inevitably導致信息損失,即使是大型模型也難以準確生成對稱眼睛等細節特徵。而連續型詞元能夠保存更精確的信息,顯著提升圖像重建質量。
研究團隊還對圖像生成順序進行了創新。傳統自迴歸模型通常採用從左到右、從上到下的固定順序生成圖像。研究者嘗試了隨機順序方法,允許模型在每個步驟中預測任意位置的多個像素。這種方法在需要良好把握整體圖像結構的任務中表現突出,在衡量文本與生成圖像匹配度的 GenEval 基準測試中取得顯著優勢。
Fluid 模型的實際表現印證了研究的價值。在擴展到105億參數規模後,Fluid 在多個重要基準測試中均超越現有模型。值得注意的是,僅有3.69億參數的小型 Fluid 模型就達到了200億參數量級的 Parti 模型在 MS-COCO 數據集上的 FID 評分(7.23)。
這一研究成果表明,像 Fluid 這樣的自迴歸模型很可能成爲擴散模型的有力替代者。與需要多次正向和反向傳遞的擴散模型相比,Fluid 僅需單次傳遞即可生成圖像,這種效率優勢在模型進一步擴展後將更加明顯。