快手、北大聯手開源視頻生成模型Pyramid-Flow ：可生成10秒超高清視頻

最近，快手和北京大學以及北京郵電大學的研究團隊共同開源了一個名爲 Pyramid-Flow 的超高清視頻生成模型。

這個模型能夠通過文本描述生成最高10秒、1280x768分辨率、24幀的視頻，質量相當出色，光影效果、動作一致性、視頻質量等方面表現都很不錯。

Pyramid Flow 的工作原理與現有的視頻擴散模型不同。現有模型通常在全分辨率下運行，這樣做雖然能產生高質量的結果，但卻消耗了大量計算資源。而 Pyramid Flow 則採用了流匹配的靈活性，可以在不同分辨率和噪聲水平之間進行插值，這樣就能更高效地生成和解壓縮視頻內容。

這一切都通過一個名爲 DiT 的單一框架進行優化，大大縮短了訓練時間。Pyramid-Flow 在 A100GPU 上僅經過了20，700小時的訓練，能耗和效率遠超市面上的同類模型。這對於那些沒有龐大算力的中小企業和個人開發者來說，無疑是一個巨大的助力。

Pyramid-Flow 的創新之處在於它採用了一種名爲金字塔流匹配的技術。這種方法將視頻生成分解爲多個不同分辨率的階段，開始時生成低分辨率的草圖，然後逐步提升到高分辨率。這樣的設計既降低了計算負擔，又提高了生成的靈活性。每個階段都是從一個像素化的噪聲表示演變而來，直到變得清晰。爲了確保每個階段之間的連續性，算法在過渡時會重新引入一些噪聲。

此外，模型還利用自迴歸框架和塊狀因果注意力機制，使每一幀都能基於之前的幀進行生成，確保視頻的連貫性和邏輯性。

官方示例：生成的10秒視頻

官方示例：圖片生成視頻

在性能方面，Pyramid Flow 在各大比較平臺上都表現優異。與市面上的一些商業模型相比，儘管它只使用了公共視頻數據，但在質量和流暢度評分上都不遑多讓。此外，通過用戶調查發現，參與者普遍對 Pyramid Flow 的生成效果表示滿意，尤其是在視頻的運動平滑度方面，表現更加出色。

無論是想要生成精彩的視頻內容的創作者，還是在探索新技術的研究者，Pyramid Flow 都爲他們提供了一個高效、易用的選擇。

項目入口:https://huggingface.co/rain1011/pyramid-flow-sd3

劃重點:
🌟 該技術可生成768p 分辨率、24幀每秒、時長10秒的視頻，且支持圖像到視頻的生成。
💡 使用流匹配的方式，在不同分辨率和噪聲水平之間進行插值，從而提高計算效率。
🚀 在多個平臺上表現優異，用戶普遍對其視頻生成效果給予高度評價。

快手、北大聯手開源視頻生成模型Pyramid-Flow ：可生成10秒超高清視頻

相關推薦

可靈AI 獲 30 億美元融資，估值達 180 億美元創視頻大模型融資紀錄

可靈AI 融資傳聞再起：180 億美元估值背後的資本博弈

可靈AI將完成30億美元融資騰訊參投，計劃12個月內啓動赴港IPO

快手發佈反詐治理新報告，AI 大模型助力打擊網絡詐騙！

快手App上線“AI購物助手” 補齊貨架電商智能導購短板