アリババクラウドは、注目を集める動画生成AIモデル「Wan2.2」が近日中に正式リリースされる予定であることを発表しました。Wan2.1のアップグレード版であるWan2.2は、パフォーマンス、効率、機能において大きな進歩を遂げ、アリババのオープンソースAI戦略を引き続き推進し、世界のAI動画生成分野でのリーダー的地位を強化する予定です。2025年2月にオープンソース化され広く成功を収めたWan2.1に続いて、Wan2.2の登場は開発者コミュニティや業界で熱烈な議論を巻き起こしています。

Wan2.2:技術革新、パフォーマンスの再突破

Wan2.1は、時空間変分自己符号化器(VAE)拡散変換器(DiT)のアーキテクチャにより、VBenchベンチマークテストでOpenAIのSora(84.28%)を84.7%で上回りました。SNS上の議論によると、Wan2.2はこれらの技術をさらに最適化し、特に高解像度(例: 1080p)や長時間の動画生成における速度と品質を大幅に向上させる予定です。追加機能には以下が含まれます:

  • テキストから動画(T2V): より高い解像度(例: 1080pや4K)およびより長い動画生成をサポートし、生成時間をさらに短縮します。
  • 画像から動画(I2V): 動的なシーンの滑らかさと現実性を向上させ、より複雑な動作やシーンの切り替えをサポートします。
  • 動画から音声(V2A): 動画コンテンツから一致する音声を生成する能力を強化し、マルチモーダル創作体験を向上させます。
  • 多言語とスタイル拡張: より多くの言語のテキスト効果生成をサポートし、サイバーパンクやリアリスティックアニメーションなど、多様な芸術スタイルテンプレートを追加します。
  • ハードウェア最適化: ハードウェア要件をさらに低下させ、T2V-1.3Bモデルはより低いメモリ(例: 6GB)を持つデバイスでも動作可能となり、ユーザー範囲を広げます。

Wan2.2のトレーニングデータは、Wan2.1(15億本の動画、100億枚の画像)の基礎の上にさらに拡充され、データの選別を最適化して生成内容の多様性と現実性を向上させる予定です。

Wan2.2はApache2.0ライセンスを引き続き採用し、Alibaba Cloud ModelScopeHugging Faceを通じてコードとモデル重みを無料で提供し、学術研究や商業利用を支援します。Wan2.1にはT2V-1.3B、T2V-14B、I2V-14B-720P、I2V-14B-480Pの4つのバリアントが登場しましたが、Wan2.2はさらなるモデルバリアントを追加し、異なるハードウェアとシナリオに合わせた最適化を進めると予想されます。

image.png

開発者たちはWan2.2のオープンソースへの展望に期待しており、それがOpenAIのSoraなどの閉鎖型モデルの市場支配力をさらに挑戦し、AI動画生成技術の民主化を促進すると考えています。アリババのこの行動は、技術のハードルを下げ、世界中の開発者にさらに多くのイノベーションの空間を提供しています。