Colossal-AI開源了完整的Sora復現架構方案Open-Sora,聲稱可降低46%復現成本,並將模型訓練輸入序列長度擴充至819K patches。Sora算法復現方案在Sora的技術報告中,Sora使用了一個視頻壓縮網絡將各種尺寸的視頻壓縮成一個隱空間的時空塊序列,然後使用了Diffusion Transformer進行去噪,最後進行解碼生成視頻。Open-Sora將Sora可能使用的訓練pipeline歸納爲提供完整的Sora復現架構方案,包含從數據處理到訓練推理全流程。目前Open-Sora已涵蓋提供完整的Sora復現架構方案,包含從數據處理到訓練推理全流程,支持動態分辨率,支持多種模型結構,支持多種視頻壓縮方法,支持多種並行訓練優化。性能方面,在單臺H800 SXM 8*80GB GPU上使用DiT-XL/2模型的性能測試爲例,在600K的序列長度時,Open-Sora的方案比基線方案有40%以上的性能提升和成本降低。Open-Sora開源地址:https://github.com/hpcaitech/Open-Sora。
開源Sora復現方案,成本降低46%,序列擴充至819K patches
