アリババの通義は、強力な始終フレーム生成ビデオモデルを含むWan2.1シリーズモデルのオープンソース化を発表しました。このモデルは高度なDiTアーキテクチャを採用しており、技術的に複数のブレークスルーを達成し、高解像度ビデオ生成の計算コストを大幅に削減しつつ、生成ビデオの時間的および空間的一貫性を確保しています。今回のオープンソース化により、開発者やクリエイターは強力なツールを獲得し、ビデオ生成技術の発展を促進します。
アリババ通義がリリースしたWan2.1シリーズモデルは、複数の面で最適化と革新が施されています。その中でも、効率的なビデオ圧縮VAEモデルは計算コストを大幅に削減し、高解像度ビデオ生成をより効率的で経済的にしています。モデルのTransformer部分は、主流のビデオDiT構造に基づいており、Full Attentionメカニズムによって長時間の時空間依存関係を正確に捉え、生成ビデオの時間的および空間的一貫性を確保しています。さらに、始終フレーム生成ビデオモデルは、追加の条件制御ブランチを導入しており、ユーザーが入力する始点フレームと終点フレームを制御条件として、このブランチを通じてスムーズで正確な始終フレーム変換を実現しています。
訓練と推論の最適化において、通義万相始終フレーム生成ビデオモデルは、線形ノイズ軌跡に基づくフローマッチング(Flow Matching)手法を採用しています。訓練段階では、データ並列処理(DP)と完全分片データ並列処理(FSDP)を組み合わせた分散戦略を採用し、解像度720p、長さ5秒のビデオセグメントの訓練をサポートしています。推論段階では、モデル分割戦略とシーケンシャル並列処理戦略を採用し、推論時間を大幅に短縮するとともに、FlashAttention3INT8とFP8混合演算子を用いてアテンションメカニズム部分を8ビット量子化し、推論効果の損失を防いでいます。
モデルの訓練は3段階に分かれており、段階的に能力を向上させています。第1段階では、基盤モデルと同じデータセットを用いて、480pの解像度で、画像からビデオ生成、任意位置のフレーム補間、ビデオ継続などのタスクの混合訓練を行います。第2段階では、始終フレームモード専用の訓練データを作成し、始終フレームの差異が大きいビデオセグメントを選別し、始終フレーム生成能力の最適化に重点を置いています。第3段階では、高精度データセットを用いて、720pの解像度で最終的な訓練を行い、生成ビデオの詳細な複製と動作の滑らかさを最適なレベルに高めています。
通義万相始終フレーム生成ビデオモデルの強力な能力に基づき、入力画像の詳細を完璧に再現するだけでなく、生き生きとしたリアルな動作を持つビデオを生成できます。現在、通義万相始終フレーム生成ビデオモデルはGitHubでオープンソース化されており、多くの開発者やクリエイターが試用し、貴重な意見を提出することを歓迎しています。オープンソースアドレスは以下の通りです。
- GitHub: https://github.com/Wan-Video/Wan2.1
- Hugging Face: https://huggingface.co/Wan-AI/Wan2.1-FLF2V-14B-720P
- Modelscope: https://www.modelscope.cn/models/Wan-AI/Wan2.1-FLF2V-14B-720P