崑崙萬維 SkyReels 團隊正式發佈並開源了 SkyReels-V2,這是全球首個使用擴散強迫(Diffusion-forcing)框架的無限時長電影生成模型。該模型通過結合多模態大語言模型(MLLM)、多階段預訓練、強化學習和擴散強迫框架來實現協同優化,標誌着視頻生成技術邁入了一個新的階段。

SkyReels-V2的發佈旨在解決現有視頻生成技術在提示詞遵循、視覺質量、運動動態和視頻時長協調上的重大挑戰。該模型不僅在技術上實現了突破,還提供了多種應用場景,包括故事生成、圖生視頻、運鏡專家和多主體一致性視頻生成(SkyReels-A2)。SkyReels-V2現已支持生成30秒、40秒的視頻,並具備生成高運動質量、高一致性、高保真視頻的能力。

微信截圖_20250421110023.png

SkyReels-V2的核心技術創新包括:

  1. 全面的影視級視頻理解模型 SkyCaptioner-V1:通過結構化的視頻表示方法,結合多模態 LLM 的一般描述與子專家模型的詳細鏡頭語言,顯著提高了對鏡頭語言的理解能力。該模型能夠高效地理解視頻數據,生成符合原始結構信息的多樣化描述。

  2. 針對運動的偏好優化:通過強化學習訓練,使用人工標註和合成失真數據,解決了動態扭曲、不合理等問題。SkyReels-V2在運動動態方面表現出色,能夠生成流暢且逼真的視頻內容。

  3. 高效的擴散強迫框架:通過微調預訓練的擴散模型,將其轉化爲擴散強迫模型,顯著提高了生成效率。該方法不僅減少了訓練成本,還實現了長視頻的高效生成。

  4. 漸進式分辨率預訓練與多階段後訓練優化:整合了來自通用數據集、自收集媒體和藝術資源庫的億級數據,通過多階段優化方法,確保了 SkyReels-V2在資源有限的情況下,逐步提升多方面的表現,達到影視級視頻生成的水準。

在性能評估方面,SkyReels-V2在 SkyReels-Bench 和 V-Bench 中表現出色。SkyReels-Bench 包含1020個文本提示詞,系統性地評估了四個關鍵維度:指令遵循、運動質量、一致性和視覺質量。在 SkyReels-Bench 評估中,SkyReels-V2在指令遵循方面取得了顯著進展,同時在保證運動質量的同時不犧牲視頻的一致性效果。在 V-Bench1.0自動化評估中,SkyReels-V2在總分(83.9%)和質量分(84.7%)上均優於所有對比模型,包括 HunyuanVideo-13B 和 Wan2.1-14B。

SkyReels-V2的應用場景豐富多樣,包括:

  1. 故事生成:通過滑動窗口方法,模型在生成新幀時會參考之前生成的幀和文本提示,支持時間上的擴展,生成具有連貫敘事的長鏡頭視頻。

  2. 圖像到視頻合成:提供了兩種圖像到視頻(I2V)的生成方法,包括微調全序列文本到視頻(T2V)擴散模型和擴散強迫模型與幀條件結合的方法。

  3. 攝像導演功能:通過專門篩選的樣本,確保基本攝像機運動及其常見組合的平衡表示,顯著提升了攝影效果。

  4. 元素到視頻生成:基於 SkyReels-V2基座模型,研發了 SkyReels-A2方案,能夠將任意視覺元素組合成由文本提示引導的連貫視頻。

崑崙萬維 SkyReels 團隊表示,將繼續推動視頻生成技術的發展,並將 SkyCaptioner-V1和 SkyReels-V2系列模型進行完全開源,以促進學術界和工業界的進一步研究和應用。團隊還將繼續優化 SkyReels-V2的性能,探索更多應用場景,並進一步降低計算成本,使其能夠更廣泛地應用於創意內容製作和虛擬仿真領域。

  • GitHub地址:

    https://github.com/SkyworkAI/SkyReels-V2

  • 論文地址:

    https://arxiv.org/abs/2504.13074

  • SkyReels官網地址:

    https://www.skyreels.ai/home