研究人員最近開發了一種名爲 REPA 的新技術,旨在加速 AI 圖像生成模型的訓練速度。REPA 代表 REPresentation Alignment,通過整合來自 DINOv2等模型的高質量視覺表示來提高訓練速度和輸出質量。
傳統的擴散模型通常會創建嘈雜的圖像,然後逐漸將其細化爲乾淨的圖像。REPA 增加了一個步驟,將在此去噪過程中生成的表示與來自 DINOv2的表示進行比較。然後,它將擴散模型的隱藏狀態投影到 DINOv2的表示上。
研究人員表示,REPA 不僅提高了訓練效率,還提高了生成的圖像質量。使用各種擴散模型架構進行的測試顯示出顯着的改進:1. 訓練時間減少了高達17.5倍2.輸出圖像質量無損失3.在標準圖像質量指標上表現更佳
例如,使用 REPA 的 SiT-XL 模型僅用40萬個訓練步驟就實現了傳統模型需要700萬個步驟才能實現的目標。研究人員認爲這是邁向更強大、更高效的 AI 圖像生成系統的重要一步。
REPA 技術的出現爲 AI 圖像生成模型的訓練速度和輸出質量帶來了新的希望。隨着該技術的進一步發展和應用,我們可以期待看到更多的創新和突破。