在人工智能視頻生成領域,擴散模型以其卓越的性能備受矚目。然而,其固有的迭代去噪特性導致生成過程耗時且計算成本高昂,成爲制約其廣泛應用的關鍵瓶頸。近日,來自B北京航空大學、香港大學和上海人工智能實驗室的研究團隊聯合發佈了一項名爲 AccVideo 的創新技術。該方法通過一種新穎高效的蒸餾方法,並結合合成數據集,成功將視頻擴散模型的生成速度提升了驚人的8.5倍

現有的視頻擴散模型在生成高質量視頻方面表現出色,但其迭代式的去噪過程需要大量的推理步驟。這意味着用戶需要等待較長的時間才能獲得最終的視頻作品,同時也對計算資源提出了極高的要求,這無疑限制了其在實際應用中的普及。針對這一難題,研究人員一直在探索加速擴散模型的方法,而AccVideo的出現,無疑爲解決這一挑戰帶來了全新的思路。

QQ_1743045070882.png

AccVideo的核心突破:合成數據與高效指導

AccVideo的核心在於其創新性的蒸餾方法,該方法巧妙地利用合成數據集來加速視頻擴散模型。研究團隊首先利用預訓練的視頻擴散模型生成多個有效的去噪軌跡,構建出高質量的合成數據集。與以往的蒸餾方法不同,AccVideo的方法避免了使用大量冗餘數據點,從而提高了蒸餾效率。

在此基礎上,AccVideo設計了一種基於軌跡的少步指導策略。該策略充分利用合成數據集中的關鍵數據點,使“學生”模型能夠在更少的步驟內學習到“教師”模型(即預訓練的視頻擴散模型)的去噪過程,從而實現快速視頻生成。

質量與效率並存:對抗訓練提升視頻品質

爲了充分挖掘合成數據集在每個擴散時間步所捕獲的數據分佈信息,AccVideo還引入了對抗性訓練策略。通過這種方式,AccVideo能夠有效地對齊學生模型的輸出分佈與合成數據集的分佈,從而顯著提升生成視頻的質量。

實驗結果表明,AccVideo在保持與教師模型相當性能的同時,實現了高達8.5倍的生成速度提升。更令人 впечатляет的是,AccVideo還能夠生成5秒、分辨率高達720x1280、幀率爲24fps的高質量視頻。與以往的加速方法相比,AccVideo在視頻質量和分辨率方面均展現出更強的優勢。

廣泛的應用前景:高質量長視頻生成不再是難題

AccVideo的突破性進展預示着高質量視頻生成技術將迎來新的發展機遇。其高效的生成能力,結合出色的視頻質量和分辨率,使其在文本到視頻生成等領域展現出巨大的應用潛力。例如,用戶可以通過簡單的文本描述,快速生成長達5秒、畫面細膩、內容豐富的視頻內容,極大地拓展了視頻創作的可能性。

從研究團隊展示的定性結果來看,無論是描繪繁華東京街頭的時尚女性,還是栩栩如生的動物場景,亦或是充滿想象力的科幻畫面,AccVideo都能夠高質量地呈現。這充分證明了其在複雜場景和多樣化主題上的強大生成能力。

AccVideo的發佈,無疑是視頻生成領域的一項重要里程碑。其8.5倍的加速效高質量的視頻輸出,有效解決了現有擴散模型速度慢、成本高的難題,爲未來更廣泛、更便捷的視頻內容創作和應用奠定了堅實的基礎。

項目:https://top.aibase.com/tool/accvideo