近日,HPC-AI Tech 宣佈推出 Open-Sora2.0,這是一款突破性的視頻 AI 系統,僅需約十分之一的典型訓練成本即可實現商業級質量。這一進展標誌着在資源密集型的視頻 AI 領域可能出現範式轉變,堪比語言模型中出現的效率提升。
雖然像 Movie Gen 和 Step-Video-T2V 這樣現有的高質量視頻生成系統可能需要數百萬美元的訓練費用,但 Open-Sora2.0的訓練支出僅約爲20萬美元。儘管成本大幅降低,但測試表明,其輸出質量可與 Runway Gen-3Alpha 和 HunyuanVideo 等已建立的商業系統相媲美。該系統使用了224個 Nvidia H200GPU 進行訓練。
提示:“兩個女人坐在米色沙發上,房間溫馨舒適,背景是磚牆。她們愉快地交談,面帶微笑,在親密的中景鏡頭中舉杯慶祝紅酒。”| 視頻:HPC-AI Tech
Open-Sora2.0通過一種新穎的三階段訓練過程實現其效率,首先從低分辨率視頻開始,逐步細化到更高分辨率。集成像 Flux 這樣的預訓練圖像模型進一步優化了資源利用。其核心是視頻 DC-AE 自動編碼器,與傳統方法相比,它提供了卓越的壓縮率。這一創新轉化爲令人矚目的5.2倍更快的訓練速度和超過十倍更快的視頻生成速度。雖然更高的壓縮率導致輸出細節略有減少,但它極大地加快了視頻創建過程。
提示:“一顆番茄在一片生菜上衝浪,順着牧場醬汁瀑布而下,誇張的衝浪動作和柔滑的波浪效果凸顯了3D 動畫的樂趣。”| 視頻:HPC-AI Tech
這款開源系統可以從文本描述和單張圖像生成視頻,並通過運動評分功能讓用戶控制生成片段中的運動強度。HPC-AI Tech 提供的示例展示了各種場景,包括逼真的對話和異想天開的動畫。
然而,Open-Sora2.0目前在分辨率(768x768像素)和最長視頻時長(5秒或128幀)方面存在限制,遜於 OpenAI 的 Sora 等領先模型的功能。儘管如此,其在視覺質量、提示準確性和運動處理等關鍵領域的表現正逼近商業標準。值得注意的是,Open-Sora2.0的 VBench 得分現在僅落後 OpenAI 的 Sora0.69%,與之前版本4.52% 的差距相比有了顯著改進。
提示:“一羣擬人化的蘑菇在一片黑暗的魔法森林中舉行迪斯科派對,伴隨着閃爍的霓虹燈和誇張的舞步,它們光滑的紋理和反光的表面強調了滑稽的3D 外觀。”| 視頻:HPC-AI Tech
Open-Sora2.0的成本效益策略與語言模型中的“Deepseek 時刻”相呼應,當時改進的訓練方法使開源系統能夠以遠低於商業系統的成本實現商業級性能。這一發展可能會對視頻 AI 領域的價格產生下行壓力,該領域目前由於計算需求高昂,服務按秒收費。
培訓成本比較:Open-Sora2.0需要大約20萬美元,而 Movie Gen 需要250萬美元,Step-Video-T2V 需要100萬美元。| 圖片:HPC-AI Tech
儘管取得了這一進展,但開源和商業視頻 AI 之間的性能差距仍然大於語言模型,這突顯了該領域持續存在的技術挑戰。Open-Sora2.0現在已在 GitHub 上作爲開源項目提供。