Meta 和加州大學伯克利分校的研究人員共同開發了 StreamDiT,這是一款革命性的 AI 模型,能夠以每秒16幀的速度實時創建512p 分辨率的視頻,並且僅需單個高端 GPU。 與以往需要完整生成視頻片段才能播放的方法不同,StreamDiT 實現了逐幀實時視頻流生成。

StreamDiT 模型擁有 40億個參數,展現了令人印象深刻的多功能性。它能夠即時生成長達一分鐘的視頻,響應交互式提示,甚至可以實時編輯現有視頻。在一個引人注目的演示中,StreamDiT 成功將視頻中的一頭豬實時替換爲一隻貓,同時保持背景不變。

定製架構實現卓越速度

該系統的核心在於其專爲速度而構建的定製架構。StreamDiT 採用移動緩衝區技術,能夠同時處理多個幀,實現在輸出前一幀的同時處理下一幀。新幀在生成之初會比較嘈雜,但會逐漸優化直至達到可顯示的狀態。根據研究論文,該系統大約只需半秒即可生成兩幀,經過處理後可以生成八張最終圖像。

StreamDiT 將其緩衝區劃分爲固定參考幀和短塊。在去噪過程中,圖像相似度會逐漸降低,從而形成最終的視頻幀。

多功能訓練與加速技術

爲了提升模型的通用性,StreamDiT 的訓練過程涵蓋了多種視頻創作方法,使用了 3,000個高質量視頻和一個包含260萬個視頻的大型數據集。訓練在 128塊 Nvidia H100GPU 上進行,研究人員發現混合使用1到16幀的塊大小能獲得最佳效果。

爲實現實時性能,團隊引入了一項關鍵的加速技術,將所需的計算步驟從128步大幅減少到僅8步,同時最大程度地降低了對圖像質量的影響。 StreamDiT 的架構也針對效率進行了優化,信息僅在局部區域之間交換,而非每個圖像元素都與其他元素進行交互。

性能超越現有方法

在直接對比測試中,StreamDiT 在處理包含大量運動的視頻時,表現優於 ReuseDiffuse 和 FIFO 擴散等現有方法。 其他模型傾向於創建靜態場景,而 StreamDiT 則能夠生成更具動態感和自然感的運動。

人工評估員對 StreamDiT 在動作流暢度、動畫完整性、幀間一致性以及整體質量方面的表現進行了評估。在對時長8秒、512p 的視頻進行測試時,StreamDiT 在所有類別中均名列前茅。

更大模型的潛力與現有侷限

研究團隊還嘗試了一個更大的300億參數模型,該模型提供了更高的視頻質量,儘管其速度尚不足以實現實時使用。這表明 StreamDiT 的方法可以擴展到更大的系統,預示着未來更高質量實時視頻生成的可能性。

儘管取得了顯著進展,StreamDiT 仍存在一些限制。例如,它對視頻前半部分的“記憶”能力有限,並且各部分之間偶爾會出現可見的過渡。研究人員表示,他們正在積極研究解決方案以克服這些挑戰。

值得注意的是,其他公司也在探索實時 AI 視頻生成領域。例如,Odyssey 最近推出了一種自迴歸世界模型,能夠根據用戶輸入逐幀調整視頻,從而提供更便捷的交互體驗。

StreamDiT 的出現標誌着 AI 視頻生成技術的一個重要里程碑,預示着實時交互式視頻內容創作的廣闊前景。