生成高質量、時間連續的視頻需要大量的計算資源,尤其是對於較長的時間跨度而言。最新的擴散Transformer 模型(DiTs)雖然在視頻生成方面取得了顯著進展,但由於其依賴於更大的模型和更復雜的注意力機制,導致推理速度較慢,反而加劇了這一挑戰。爲了解決這個問題,Meta AI 的研究人員提出了一種名爲 AdaCache 的免訓練方法來加速視頻 DiTs。

AdaCache 的核心思想是基於“並非所有視頻都相同”這一事實,這意味着某些視頻比其他視頻需要更少的去噪步驟即可達到合理的質量。 基於此,該方法不僅在擴散過程中緩存計算結果,還針對每個視頻生成設計了定製化的緩存策略,從而最大限度地優化質量和延遲之間的權衡。
研究人員進一步引入了運動正則化(MoReg)方案,利用 AdaCache 中的視頻信息,根據運動內容控制計算資源的分配。 由於包含高頻紋理和大量運動內容的視頻序列需要更多的擴散步驟才能達到合理的質量,所以 MoReg 可以更好地分配計算資源。

實驗結果表明,AdaCache 可以顯著提高推理速度(例如,在 Open-Sora720p -2s 視頻生成中速度提升高達4.7倍),而不會犧牲生成質量。 此外,AdaCache 還具有良好的泛化能力,可以應用於不同的視頻 DiT 模型,例如 Open-Sora、Open-Sora-Plan 和 Latte。 與其他免訓練加速方法(例如 ∆-DiT、T-GATE 和 PAB)相比,AdaCache 在速度和質量方面都具有顯著優勢。
用戶研究表明,與其他方法相比,用戶更喜歡 AdaCache 生成的視頻,並且認爲其質量與基準模型相當。 這項研究證實了 AdaCache 的有效性,併爲高效視頻生成領域做出了重要貢獻。 Meta AI 相信 AdaCache 可以廣泛應用,並推動高保真長視頻生成的普及化。
論文:https://arxiv.org/abs/2411.02397
項目主頁:
https://adacache-dit.github.io/
GitHub:
https://github.com/AdaCache-DiT/AdaCache
