Meta 近日重磅發佈 Movie Gen,這款堪稱"元宇宙版 Sora"的 AI 視頻生成模型,不僅能一鍵創作高質量視頻,還能爲視頻配音、編輯剪輯,甚至將個人照片變成個性化視頻。

image.png

隨着92頁技術報告的同步公開,Movie Gen 的強大功能和先進架構引發業界廣泛關注。

Movie Gen Video:高清視頻生成的革新

Movie Gen 由兩大核心模型組成:Movie Gen Video 和 Movie Gen Audio。其中,Movie Gen Video 是一個擁有300億參數的 Transformer 模型,可根據文本提示生成1080P 分辨率、16秒長、每秒16幀的高清視頻。

image.png

主要功能:

文本生成視頻:通過簡單文本輸入創作高質量定製視頻

視頻編輯:精確修改現有視頻的風格和內容

個性化視頻:將個人照片轉化爲動態視頻

音頻生成:爲視頻配音、添加音效和背景音樂

該模型借鑑了 Llama3的架構設計,並採用"流匹配"技術,在視頻精度和細節表現上超越了傳統的擴散模型。

從演示效果看,Movie Gen生成的視頻在畫面質量、光影效果和動作流暢度上都達到極高水準。人物面部穩定、動物毛髮逼真、背景細節豐富,令人驚歎。音頻生成同樣出色,不僅能創作符合場景氛圍的背景音樂,還能精準匹配視頻動作節點。

Movie Gen Audio:同步音頻生成的突破

Movie Gen Audio 則是一個130億參數的模型,能爲視頻生成48kHz 的高質量配音和音樂。它不僅可以生成與視頻同步的音效,還能創作符合場景氛圍的背景音樂,甚至實現長達數分鐘的連貫音頻製作。

個性化視頻:創造獨一無二的內容

在功能方面,Movie Gen 展現了驚人的多樣性和靈活性。用戶可以通過簡單的文本輸入生成定製視頻,編輯現有視頻的風格和內容,甚至上傳個人照片生成獨特的個性化視頻。這些功能使 Movie Gen 成爲目前最先進的媒體基礎模型之一。

Meta 公佈的演示視頻令人印象深刻。從雷雨交加的山景到海灘上放風箏的小女孩,再到戴着粉色太陽鏡的樹懶,Movie Gen 生成的視頻在畫面質量、光影效果和動作流暢度上都達到了極高水準。

更令人驚歎的是,它還能將普通照片轉化爲動態視頻,如將小扎的照片變成健身視頻。

QQ20241005-114628.png

技術上,Movie Gen採用多項創新:

基於Llama3的Transformer架構

流匹配訓練方法提升視頻質量

多階段訓練流程優化性能

Llama3輔助提示詞重寫提升生成質量

創新的視頻編輯和音頻擴展技術

儘管 Movie Gen 目前仍處於"期貨"狀態,預計要到明年纔會向公衆開放,但它的發佈已經在業界引發巨大反響。有評論認爲,Meta 此舉不僅搶在了 OpenAI 之前發佈類似 Sora 的產品,還可能激發其他公司加速推出下一代 AI 視頻技術。

參考資料:https://x.com/AIatMeta/status/1842188252541043075

官網地址:https://ai.meta.com/research/movie-gen/