國慶節偷偷搞個大的！Meta視頻生成Movie Gen登場 16秒高清視頻一鍵生成還帶配音

Meta 近日重磅發佈 Movie Gen，這款堪稱"元宇宙版 Sora"的 AI 視頻生成模型，不僅能一鍵創作高質量視頻，還能爲視頻配音、編輯剪輯，甚至將個人照片變成個性化視頻。

隨着92頁技術報告的同步公開，Movie Gen 的強大功能和先進架構引發業界廣泛關注。

Movie Gen Video:高清視頻生成的革新

Movie Gen 由兩大核心模型組成:Movie Gen Video 和 Movie Gen Audio。其中，Movie Gen Video 是一個擁有300億參數的 Transformer 模型，可根據文本提示生成1080P 分辨率、16秒長、每秒16幀的高清視頻。

主要功能:

文本生成視頻:通過簡單文本輸入創作高質量定製視頻

視頻編輯:精確修改現有視頻的風格和內容

個性化視頻:將個人照片轉化爲動態視頻

音頻生成:爲視頻配音、添加音效和背景音樂

該模型借鑑了 Llama3的架構設計，並採用"流匹配"技術，在視頻精度和細節表現上超越了傳統的擴散模型。

從演示效果看，Movie Gen生成的視頻在畫面質量、光影效果和動作流暢度上都達到極高水準。人物面部穩定、動物毛髮逼真、背景細節豐富，令人驚歎。音頻生成同樣出色，不僅能創作符合場景氛圍的背景音樂，還能精準匹配視頻動作節點。

Movie Gen Audio:同步音頻生成的突破

Movie Gen Audio 則是一個130億參數的模型，能爲視頻生成48kHz 的高質量配音和音樂。它不僅可以生成與視頻同步的音效，還能創作符合場景氛圍的背景音樂，甚至實現長達數分鐘的連貫音頻製作。

個性化視頻:創造獨一無二的內容

在功能方面，Movie Gen 展現了驚人的多樣性和靈活性。用戶可以通過簡單的文本輸入生成定製視頻，編輯現有視頻的風格和內容，甚至上傳個人照片生成獨特的個性化視頻。這些功能使 Movie Gen 成爲目前最先進的媒體基礎模型之一。

Meta 公佈的演示視頻令人印象深刻。從雷雨交加的山景到海灘上放風箏的小女孩，再到戴着粉色太陽鏡的樹懶，Movie Gen 生成的視頻在畫面質量、光影效果和動作流暢度上都達到了極高水準。

更令人驚歎的是，它還能將普通照片轉化爲動態視頻，如將小扎的照片變成健身視頻。

技術上，Movie Gen採用多項創新:

基於Llama3的Transformer架構

流匹配訓練方法提升視頻質量

多階段訓練流程優化性能

Llama3輔助提示詞重寫提升生成質量

創新的視頻編輯和音頻擴展技術

儘管 Movie Gen 目前仍處於"期貨"狀態，預計要到明年纔會向公衆開放，但它的發佈已經在業界引發巨大反響。有評論認爲，Meta 此舉不僅搶在了 OpenAI 之前發佈類似 Sora 的產品，還可能激發其他公司加速推出下一代 AI 視頻技術。

參考資料：https://x.com/AIatMeta/status/1842188252541043075

官網地址：https://ai.meta.com/research/movie-gen/

字節跳動 Seedance2.5模型將於7月16日全量開放 API