Colossal-AIは、Soraの完全な再現アーキテクチャソリューションであるOpen-Soraをオープンソース化しました。これは、再現コストを46%削減し、モデルトレーニングの入力シーケンス長を819Kパッチに拡張できると主張しています。Soraアルゴリズムの再現ソリューションは、Soraの技術レポートに記載されています。Soraは、様々なサイズのビデオを潜在空間の时空ブロックシーケンスに圧縮するビデオ圧縮ネットワークを使用し、次にDiffusion Transformerを使用してノイズを除去し、最後にデコードしてビデオを生成します。Open-Soraは、データ処理からトレーニング推論までの全プロセスを含む、Soraが使用する可能性のあるトレーニングパイプラインを包括的に提供し、完全なSora再現アーキテクチャソリューションを提供します。現在、Open-Soraは、データ処理からトレーニング推論までの全プロセスを含む完全なSora再現アーキテクチャソリューションを提供しており、動的解像度、複数のモデル構造、複数のビデオ圧縮方法、複数の並列トレーニング最適化をサポートしています。性能面では、単一のH800 SXM 8*80GB GPU上でDiT-XL/2モデルを使用した性能テストを例にとると、600Kのシーケンス長において、Open-Soraのソリューションは、ベースラインソリューションと比較して40%以上の性能向上とコスト削減を実現しています。Open-Soraのオープンソースアドレス:https://github.com/hpcaitech/Open-Sora