近日,新加坡國立大學和普渡大學的研究人員成功提PAB技術,實現了基於擴散式轉換的視頻生成的實時處理。

產品入口:https://top.aibase.com/tool/pab

這項技術是基於 Diffusion Transformer(DiT)的視頻生成模型的首次嘗試,通過減少冗餘的關注計算,實現了高達21.6幀每秒的生成速度,加速了10.6倍,而且在不犧牲質量的情況下適用於多個熱門的 DiT 視頻生成模型,包括 Open-Sora、Open-Sora-Plan 和 Latte。PAB 是一種無需訓練的方法,可以爲未來的 DiT 視頻生成模型賦予實時生成的能力。PAB 無需經過訓練,能夠賦予未來任何基於擴散式轉換的視頻生成模型實時處理的能力。

image.png

重要功能特點:

  • PAB關注廣播通過減少冗餘的關注計算,顯著提高了視頻生成的速度,實現了實時生成。

  • 根據關注的穩定性和差異性,PAB 爲不同類型的關注設置了不同的廣播範圍,從而在保證計算效率的同時最小化了質量損失。

  • 通過改進序列並行處理技術,PAB 減少了多 GPU 之間的通信開銷,進一步提高了視頻生成的速度和效率。

研究人員發現,視頻擴散式轉換模型中的注意力機制存在着明顯的時間步驟間的差異,通過這一發現,提出了PAB以減輕不必要的注意力計算。在穩定的中間部分,PAB 將一個擴散步驟的注意力輸出廣播到後續的多個步驟,從而顯著減少了計算成本。此外,爲了更高效的計算和最小化質量損失,針對不同的注意力類型設置了不同的廣播範圍。

爲了進一步提高視頻生成速度,研究人員改進了基於動態序列並行(DSP)的並行處理方法,通過廣播時間注意力,消除了大部分通信開銷,實現了超過50% 的通信開銷降低,爲實時視頻生成提供了更加高效的分佈式推斷能力。


劃重點:

⭐ PAB技術實現了實時視頻生成,加速了10.6倍的處理速度。

⭐ 通過觀察視頻擴散式轉換模型的注意力機制差異,提出了 PAB 以減輕不必要的注意力計算。

⭐ 通過改進並行處理方法,大幅降低了通信開銷,爲實時視頻生成提供了更高效的分佈式推斷能力。