聽說過壕無人性的 OpenAI Sora 吧?動輒幾百萬美元的訓練成本,簡直就是視頻生成界的“勞斯萊斯”。現在,潞晨科技宣佈開源視頻生成模型 Open-Sora2.0!
僅僅花費了區區20萬美元(相當於224張 GPU 的投入),就成功訓練出了一個擁有 110億參數的商業級視頻生成大模型。

性能直追“OpenAI Sora ”
別看 Open-Sora2.0成本不高,實力可一點都不含糊。它可是敢於叫板行業標杆 HunyuanVideo 和擁有300億參數的 Step-Video 的狠角色。在權威評測 VBench 和用戶偏好測試中,Open-Sora2.0的表現都令人刮目相看,多項關鍵指標上都能夠媲美那些動輒花費數百萬美元訓練的閉源模型。
更令人激動的是,Open-Sora2.0在 VBench 的評測中,與 OpenAI Sora 之間的性能差距竟然從之前的4.52% 大幅縮小至僅僅0.69%!這幾乎可以說是性能上的全面追平了!
而且,Open-Sora2.0在 VBench 中的得分甚至超過了騰訊的 HunyuanVideo,真可謂是“長江後浪推前浪”,以更低的成本實現了更高的性能,爲開源視頻生成技術樹立了新的標杆!
在用戶偏好評測中,Open Sora 在視覺表現、文本一致性和動作表現這三個關鍵維度上,至少有兩個指標都超越了開源 SOTA 模型 HunyuanVideo 以及商業模型 Runway Gen-3Alpha 等。

低成本高效能的祕密武器
大家肯定好奇,Open-Sora2.0是如何做到以如此低的成本實現如此高性能的?這背後可有不少祕密武器。首先,Open Sora 團隊在模型架構上延續了 Open-Sora1.2的設計思路,繼續採用 3D 自編碼器和 Flow Matching 訓練框架。同時,他們還引入了 3D 全注意力機制,進一步提升了視頻生成質量。
爲了追求極致的成本優化,Open-Sora2.0從多個方面入手:
- 嚴格的數據篩選,確保高質量的訓練數據輸入,從源頭提升效率。
- 優先進行低分辨率訓練,高效學習運動信息,降低計算成本。要知道,高分辨率訓練的成本可是低分辨率的幾十倍呢!
- 優先訓練圖生視頻任務,加速模型收斂,進一步降低訓練成本。而且,在推理階段,還可以通過文本生圖再生視頻(T2I2V),以獲得更精細的視覺效果。
- 採用了 高效的並行訓練方案,結合 ColossalAI 和系統級優化,大幅提升計算資源利用率。各種諸如高效的序列並行和 ZeroDP、細粒度控制的 Gradient Checkpointing、訓練自動恢復機制等等“黑科技”加持,讓訓練效率大大提升。
據估計,市面上10B 以上的開源視頻模型,單次訓練成本動輒上百萬美元,而 Open Sora2.0將這個成本降低了5-10倍。這簡直是視頻生成領域的福音,讓更多人有機會參與到高質量視頻生成的研發中來。
開源共享,共建繁榮生態
更令人稱讚的是,Open-Sora 不僅開源了模型代碼和權重,還開源了全流程訓練代碼,這無疑將極大地促進整個開源生態的發展。正如第三方技術平臺統計,Open-Sora 的學術論文引用量在半年內就獲得了近百引用,在全球開源影響力排名中穩居首位,成爲全球影響力最大的開源視頻生成項目之一。
Open-Sora 團隊還積極探索高壓縮比視頻自編碼器的應用,以大幅降低推理成本。他們訓練了一款高壓縮比(4×32×32)的視頻自編碼器,將單卡生成768px、5秒視頻的推理時間從近30分鐘縮短至3分鐘以內,速度提升了10倍! 這意味着未來我們能夠更快地生成高質量的視頻內容。
潞晨科技推出的開源視頻生成模型 Open-Sora2.0,以其低成本、高性能、全面開源的特性,無疑給視頻生成領域帶來了一股強勁的“平價”風。它的出現,不僅縮小了與頂級閉源模型之間的差距,更降低了高質量視頻生成的門檻,讓更多開發者能夠參與其中,共同推動視頻生成技術的發展。
🔗 GitHub 開源倉庫:https://github.com/hpcaitech/Open-Sora
📄技術報告:https://github.com/hpcaitech/Open-Sora-Demo/blob/main/paper/Open_Sora_2_tech_report.pdf
