最近,快手和北京大學以及北京郵電大學的研究團隊共同開源了一個名爲 Pyramid-Flow 的超高清視頻生成模型。

這個模型能夠通過文本描述生成最高10秒、1280x768分辨率、24幀的視頻,質量相當出色,光影效果、動作一致性、視頻質量等方面表現都很不錯。

image.png

Pyramid Flow 的工作原理與現有的視頻擴散模型不同。現有模型通常在全分辨率下運行,這樣做雖然能產生高質量的結果,但卻消耗了大量計算資源。而 Pyramid Flow 則採用了流匹配的靈活性,可以在不同分辨率和噪聲水平之間進行插值,這樣就能更高效地生成和解壓縮視頻內容。

這一切都通過一個名爲 DiT 的單一框架進行優化,大大縮短了訓練時間。Pyramid-Flow 在 A100GPU 上僅經過了20,700小時的訓練,能耗和效率遠超市面上的同類模型。這對於那些沒有龐大算力的中小企業和個人開發者來說,無疑是一個巨大的助力。

Pyramid-Flow 的創新之處在於它採用了一種名爲金字塔流匹配的技術。這種方法將視頻生成分解爲多個不同分辨率的階段,開始時生成低分辨率的草圖,然後逐步提升到高分辨率。這樣的設計既降低了計算負擔,又提高了生成的靈活性。每個階段都是從一個像素化的噪聲表示演變而來,直到變得清晰。爲了確保每個階段之間的連續性,算法在過渡時會重新引入一些噪聲。

此外,模型還利用自迴歸框架和塊狀因果注意力機制,使每一幀都能基於之前的幀進行生成,確保視頻的連貫性和邏輯性。

官方示例:生成的10秒視頻

官方示例:圖片生成視頻

在性能方面,Pyramid Flow 在各大比較平臺上都表現優異。與市面上的一些商業模型相比,儘管它只使用了公共視頻數據,但在質量和流暢度評分上都不遑多讓。此外,通過用戶調查發現,參與者普遍對 Pyramid Flow 的生成效果表示滿意,尤其是在視頻的運動平滑度方面,表現更加出色。

無論是想要生成精彩的視頻內容的創作者,還是在探索新技術的研究者,Pyramid Flow 都爲他們提供了一個高效、易用的選擇。

項目入口:https://huggingface.co/rain1011/pyramid-flow-sd3

劃重點:

🌟 該技術可生成768p 分辨率、24幀每秒、時長10秒的視頻,且支持圖像到視頻的生成。  

💡 使用流匹配的方式,在不同分辨率和噪聲水平之間進行插值,從而提高計算效率。  

🚀 在多個平臺上表現優異,用戶普遍對其視頻生成效果給予高度評價。