在最新的研究中,一項名爲Flash Diffusion的新方法爲圖像生成技術帶來了革命性的突破。該方法通過訓練預測模型以在單個步驟中生成經過去噪的多步驟預測結果,從而加速了預訓練擴散模型的生成過程。
產品入口:https://top.aibase.com/tool/flash-diffusion
研究人員表示,閃電擴散方法不僅在少量步驟圖像生成方面取得了最先進的 FID 和 CLIP-Score 表現,而且在訓練過程中所需的 GPU 時間和可訓練參數數量都比現有方法少。此外,該方法在文本轉圖像、修補、換臉、超分辨率等多個任務上展現了高效性和多才多藝性。
研究人員指出,Flash Diffusion方法的創新之處在於其採用了可調整的分佈以選擇時間步長,從而幫助預測模型更好地定位特定時間步。此外,方法還採用了對抗目標,通過訓練鑑別器來區分生成樣本和真實樣本,並將其應用於潛在空間以降低計算需求。同時,研究團隊還使用了分佈匹配蒸餾損失,以確保生成樣本與預測模型學習到的數據分佈密切相似。
此外,研究人員還展示了Flash Diffusion方法適應不同骨幹網絡的能力,包括基於 UNet 的去噪器(SD1.5、SDXL)和 DiT(Pixart-α),以及適配器。在多個示例中,該方法顯著減少了採樣步驟的數量,同時保持了圖像生成的高質量。
Flash Diffusion方法的出現爲圖像生成技術注入了新的活力,極大地提高了生成過程的效率和多功能性。這一突破性的方法有望在各個領域產生深遠影響,併爲相關研究領域帶來新的機遇和挑戰。