先日、アリババは動画生成モデルWanX2.1を全面的にオープンソース化すると発表し、最新の動画効果も公開しました。
2025年1月、アリババ傘下の通義万相チームはWanx2.1マルチモーダル大規模モデルを発表しました。動画生成分野における画期的な進歩により、VBench評価ランキングで首位を獲得し、AI駆動のビジュアル創作基準を塗り替えました。WanXチーム[は昨夜、最新のWANX2.1動画生成モデルをオープンソース化すると発表しました。
Wanx2.1は、AI動画モデルにおける長年の課題であったテキスト生成問題を初めて解決し、世界初の中国語と英語のテキストエフェクトに対応したモデルとなりました。ユーザーはテキストコマンドを入力するだけでダイナミックな動画を生成でき、様々なトランジションやパーティクルなどのエフェクトを組み合わせることができます。さらに、独自開発の高効率VAEとDiTアーキテクチャにより、無限長の1080P動画の高効率符号化・復号化を実現し、時空間コンテキストモデリング能力を大幅に向上させました。
物理法則のシミュレーションにおいて、Wanx2.1は衝突、反発、切断などの複雑なシーンを正確に再現できます。「雨滴が傘面に当たって水しぶきが上がる」や「フィギュアスケート選手が回転する」といった動画を生成する場合、体の協調性と運動軌跡は現実の物理法則に合致しており、従来のモデルに見られた体の歪みや動作の硬直といった問題を効果的に解決しています。