最近,Meta 與沙特阿拉伯的阿卜杜拉國王科技大學(KAUST)合作,推出了一款全新的視頻擴散模型系列 ——MarDini。這個模型讓高質量視頻的創作變得更加簡單和靈活,能夠完成多種任務,比如填補視頻中缺失的幀,將單張圖片轉換爲動態場景,甚至還可以通過添加自然的連續幀來擴展短片段。
在去年的基礎上,Meta 在生成 AI 視頻領域進一步發力。此前,它推出了 Emu Video 和 Emu Edit 等文本轉視頻和編輯模型。今年在發佈 MarDini 之前,還推出了先進的視頻編輯器 Movie Gen。由此可見,Meta 正在致力於爲視頻創作者提供更強大的工具。
MarDini 的強大之處在於它能夠根據任意數量的遮罩幀進行視頻生成,支持多種生成任務,比如視頻插值、圖像到視頻的轉換以及視頻擴展。
圖像到視頻結果
其中,MarDini 的主要應用是圖像到視頻的生成。通過使用放置在中間位置的一個參考幀作爲條件輸入,並生成16個額外的幀來演示此功能。在官方生成視頻示例中,包含以8FPS 渲染的17幀,可生成流暢的2秒視頻。
視頻擴展結果
MarDini 還能夠通過調節任何時長的現有視頻來擴展視頻。我們通過從5幀參考視頻生成2秒擴展,爲每個序列添加12個新幀。
視頻插值結果
MarDini 通過使用第一幀和最後一幀作爲調節信號生成中間幀來實現視頻插值。當這些邊界幀相同時,MarDini 可以創建無縫循環視頻。
MarDini 的工作原理非常有趣。它採用了先進而高效的視頻生成技術,主要由兩個部分構成:規劃模型和生成模型。首先,規劃模型會利用掩碼自迴歸(MAR)方法來解釋低分辨率的輸入幀,生成需要創建的幀的指導信號。然後,輕量級的生成模型通過擴散過程來生成高分辨率的詳細幀,從而確保最終視頻流暢且視覺效果良好。
與許多需要複雜預訓練圖像模型的視頻模型不同,MarDini 聲稱可以從零開始使用未標記的視頻數據進行訓練。這是因爲它採用了漸進式訓練策略,通過靈活地調整訓練過程中幀的掩碼方式,使得模型能夠更好地應對不同的幀配置。
MarDini 的一個顯著特點就是其靈活性和性能。它不僅強大而且高效,適用於更大規模的任務。這個模型能夠處理視頻插值、圖像轉視頻生成和視頻擴展等多種任務,無論是平滑現有的視頻片段,還是從頭開始創建完整的序列,它都能遊刃有餘。
在性能方面,MarDini 設定了新的基準,以更少的步驟生成高質量視頻,這使得它在成本和時間上都比更復雜的替代方案更具優勢。官方研究論文指出,“我們的研究表明,我們的建模策略在多種插值和動畫基準測試中表現出競爭力,同時在可比參數規模下降低了計算需求。”
項目入口:https://mardini-vidgen.github.io/
劃重點:
✨ MarDini 是 Meta 與 KAUST 合作推出的新一代視頻生成模型,能夠輕鬆完成多種視頻創作任務。
🎥 該模型通過規劃和生成模型的結合,實現了高效的視頻插值和圖像轉視頻生成。
💡 MarDini 以較少的步驟生成高質量視頻,顯著提升了創作的靈活性與效率。