アリババグループの科学者たちは、幅広い動画生成と編集タスクを統一的に処理することを目的とした汎用人工知能モデルであるVACEを発表しました。

VACEの中核は、強化された拡散Transformerアーキテクチャであり、その革新的な点は「ビデオ条件ユニット」(VCU)という新しい入力形式です。VCUは、テキストプロンプト、参照画像やビデオシーケンス、空間マスクなど、複数のモダリティ入力を統一的な表現に凝縮し、専用のメカニズムを通じて異なる入力を調整し、競合を回避します。

概念の分離による精密制御の実現

VACEは「概念の分離」技術を採用し、画像を編集可能な領域と固定領域に分割することで、修正する内容と保持する内容を精密に制御します。視覚情報はマスクによって「活性」領域と「非活性」領域に分けられ、共有特徴空間へ埋め込まれ、テキスト入力と結合されます。ビデオフレーム間の一貫性を確保するため、特徴は拡散Transformer構造に適合する潜在空間にマッピングされ、時間埋め込み層はモデルがシーケンスの時間的連続性を理解することを保証し、注意機構は異なるモダリティと時間ステップの特徴を関連付けます。

VACEは、テキストからビデオの生成、参照ベースのビデオ合成、ビデオからビデオへの編集、マスクベースのオブジェクト編集など、4つの主要なタスクをサポートしており、人物の削除、アニメーションキャラクターの生成、オブジェクトの置換、背景の拡張など、幅広い用途があります。

QQ20250423-102200.png

モデルの訓練と評価

研究チームはまず、テキストからビデオを生成するために絵画と落書きに焦点を当て、その後、参照画像を追加し、より高度な編集タスクに移行しました。訓練データはインターネット上のビデオから取得され、自動フィルタリング、セグメンテーション、深度とポーズの注釈による拡張が行われました。VACEの性能を評価するために、研究者は12のビデオ編集タスクを網羅する480件の事例を含むベンチマークを作成しました。実験結果によると、VACEは定量的指標とユーザー調査の両方において、専用のオープンソースモデルよりも優れていますが、参照ビデオからの生成に関しては、ViduやKlingなどの商用モデルとの差はまだあります。

アリババの研究者たちは、VACEは汎用的なマルチモーダルビデオモデルへの重要な一歩であり、今後、より大規模なデータセットとより多くの計算能力を用いて拡張していくと考えています。このモデルの一部コードはGitHubでオープンソース化される予定です。VACEは、アリババが最近発表した一連の大規模言語モデル(Qwenシリーズなど)と共に、同社の壮大な人工知能戦略を構成しています。バイトダンスを含む他の中国のテクノロジー大手も、ビデオ人工知能技術の開発に積極的に取り組んでおり、一部の成果は西側の同種製品を凌駕しています。