擴散模型(Diffusion Model)作爲AI繪畫領域的"頂流"技術,一直以其卓越的生成效果備受矚目。然而,其漫長的訓練過程一直是制約其進一步發展的瓶頸。
近日,一項名爲REPA(REPresentation Alignment)的創新技術爲解決這一問題帶來了突破性進展,有望將擴散模型的訓練效率提升17.5倍。
擴散模型的核心原理是通過逐步向圖像添加噪聲,然後訓練模型反向還原出清晰圖像的過程。這種方法雖然效果顯著,但訓練過程耗時耗力,往往需要數百萬步的迭代才能達到理想效果。
研究人員發現,這一問題的根源在於模型在學習過程中對圖像語義信息的理解效率低下。
REPA技術的創新之處在於引入了預訓練的視覺編碼器(如DINOv2),作爲模型學習圖像語義信息的"透視眼鏡"。通過這一方法,擴散模型能夠在訓練過程中不斷將自身對圖像的理解與預訓練編碼器的結果進行對比,從而加速對圖像本質特徵的掌握。
實驗結果令人振奮:
訓練效率大幅提升:使用REPA後,擴散模型SiT的訓練速度提高了17.5倍。原本需要700萬步才能達到的效果,現在僅需40萬步即可實現。
生成質量顯著提升:REPA不僅加快了訓練速度,還提高了生成圖像的質量。FID指標(衡量生成圖像質量的重要指標)從2.06降至1.80,在某些情況下甚至可達到1.42的頂級水平。
簡單易用且兼容性強:REPA方法實施簡單,只需在訓練過程中添加一個正則化項即可。此外,它還可以與多種預訓練視覺編碼器兼容,適用範圍廣泛。
REPA技術的出現爲AI繪畫領域帶來了新的可能性:
加速AI繪畫應用開發:更快的訓練速度意味着開發者可以更迅速地迭代和優化AI繪畫模型,加快新應用的推出速度。
提升生成圖像質量:通過更深入地理解圖像語義,REPA有助於生成更加逼真、細節豐富的圖像。
促進判別式模型與生成式模型的融合:REPA爲擴散模型引入了預訓練視覺編碼器的能力,這種融合可能啓發更多跨模型類型的創新,推動AI技術向更智能化的方向發展。
降低AI訓練成本:訓練效率的提升直接轉化爲時間和算力成本的節省,這可能使更多研究者和開發者有機會參與到AI繪畫技術的開發中來。
拓展AI繪畫的應用領域:更高效的訓練過程可能使得AI繪畫技術在更多領域得到應用,如實時圖像生成、個性化設計等。
論文地址:https://arxiv.org/pdf/2410.06940