在圖像生成領域,技術的進步不斷推動着虛擬現實等應用的發展。最近,三星研究院提出了一種基於自迴歸建模的新方法,旨在提升圖像生成的保真度和可擴展性。與傳統的一次性生成整個場景的方法不同,該方法採用了逐步添加細節的策略,使圖像的生成過程更符合人類的創作習慣。
這一新方法的核心在於將圖像生成分爲 “基礎” 與 “細節” 兩個層次,首先生成一個平滑的基礎圖像,再通過迭代的方式逐步添加細節,最終形成一個連貫的高質量圖像。研究團隊強調,這種分層組合的策略比傳統方法更有效,特別是在處理高分辨率圖像時,它具有更好的可擴展性,且不需要對整個模型進行重新訓練。
在自迴歸模型的學習過程中,圖像標記的處理順序對生成結果有着重要影響。三星的研究團隊通過創新性地使用邊緣感知平滑技術,將訓練圖像分解爲不同的細層次,從而實現了對細節的增量控制。這種方法與人類藝術創作的過程相似藝術家往往從草圖開始,逐步完善形狀與細節。
該模型的訓練包括三個主要步驟:首先將每個訓練圖像分解爲多個層次的基本細節因素;接着,利用矢量量化變分自編碼器(VQ-VAE)對這些因素進行編碼,確保在降低維數的同時保留圖像的關鍵特徵;最後,採用 Transformer 解碼器架構進行細節因素的迭代預測,從而實現圖像細節的可控和逐步添加。
實驗結果表明,該方法不僅在圖像生成質量上達到了最先進的水平,還有效降低了與高分辨率輸出相關的計算複雜性。這一創新的自迴歸圖像生成框架,爲擴散模型及其他技術提供了一個有力的替代方案,展示了未來圖像生成技術的廣闊前景。