最近、智源研究所は上海交通大学などの機関と共同で、新一代の超長尺ビデオ理解モデルである「Video-XL-2」を正式に発表しました。このモデルの登場により、長尺ビデオの理解技術がオープンソース分野で重要なブレークスルーを達成し、マルチモーダル大規模モデルにおける長尺ビデオ内容理解の発展に新たな活力を注入しました。

技術アーキテクチャ面では、Video-XL-2は主に視覚エンコーダー、動的トークン合成モジュール(DTS)、そして大規模言語モデル(LLM)という3つのコアコンポーネントで構成されています。このモデルはSigLIP-SO400Mを視覚エンコーダーとして採用し、入力されたビデオをフレームごとに処理して、各フレームを高次元の視覚特徴に変換します。その後、DTSモジュールがこれらの視覚特徴を統合・圧縮し、時系列関係をモデリングしてより意味的な動的信息を抽出します。処理後の視覚表現は平均プーリングと多層パーセプトロン(MLP)によってさらにテキスト埋め込み空間にマッピングされ、モダリティの対応を行います。最終的に、対応した視覚情報をQwen2.5-Instructに送り込み、視覚コンテンツの理解と推論を行い、対応するダウンストリームタスクを完了します。

トレーニング戦略において、Video-XL-2は4段階の漸進的トレーニング設計を採用しており、その強力な長尺ビデオ理解能力を段階的に構築しています。最初の2段階では、画像/ビデオ-テキストペアを使用して、DTSモジュールの初期化とモダリティ間の対応を行います。第3段階では、より大規模で質の高い画像やビデオ説明データを導入し、モデルの視覚内容理解能力を基礎づけます。第4段階では、大規模で質の高く多様な画像とビデオインストラクションデータに基づいて微調整を行い、Video-XL-2の視覚理解能力をさらに向上させ、複雑な視覚命令をより正確に理解・応答できるようにします。

微信截图_20250603134918.png

また、Video-XL-2は効率最適化の戦略も体系的に設計しています。分割ベースの事前ロード戦略(Chunk-based Prefilling)を導入し、超長尺ビデオを連続したいくつかのセグメント(chunk)に分割し、各セグメント内では密集型アテンションメカニズムを使用してエンコードします。一方、異なるセグメント間ではタイムスタンプを通じてコンテキスト情報を伝達することで、事前ロードステージでの計算コストとVRAM消費を大幅に削減しました。さらに、Video-XL-2は二重粒度KVベースのデコードメカニズム(Bi-granularity KV Decoding)を設計し、推論プロセスではモデルがタスクの要件に基づき、重要なセグメントには完全なKV(dense KVs)をロードし、他のセグメントにはサンプリングされた疎なKV(sparse KVs)のみをロードすることで、デコードウィンドウ長を短縮し、デコード効率を大きく向上させました。これらの戦略の協調最適化により、Video-XL-2は単一のGPU上で万フレーム級のビデオの効率的な推論を実現し、実際のアプリケーションシナリオでの実用性を大幅に向上させました。

実験結果において、Video-XL-2はMLVU、VideoMME、LVBenchなど主流の長尺ビデオ評価ベンチマークで現在の最高峰性能(SOTA)を達成し、既存のすべての軽量級オープンソースモデルを全面的に上回りました。特に注目すべきは、MLVUとLVBenchにおいて、Video-XL-2のパフォーマンスはQwen2.5-VL-72BやLLaVA-Video-72Bなどのパラメータ規模が720億にも及ぶ大規模モデルに近い、またはそれを凌駕する結果を達成したことです。さらに、時系列位置付け(Temporal Grounding)タスクにおいて、Charades-STAデータセットで先行する結果を達成し、そのマルチモーダルビデオ理解シナリオにおける広範な適用可能性と実用価値を証明しました。

ビデオ長の面では、Video-XL-2は顕著な優位性を示しています。単一の消費級GPU(例:RTX3090/4090)では、Video-XL-2は長さ千フレームまでのビデオを処理できます。一方、高性能なGPU(例:A100/H100)では、モデルは万フレーム級のビデオ入力をサポートし、現在の主流のオープンソースモデルを大きく上回っています。VideoChat-Flashや初代Video-XLと比べると、Video-XL-2はビデオ理解の長さを大幅に拡張し、資源の要求を効果的に削減しています。これにより、複雑なビデオタスクに対応する強力なサポートが提供されました。

速度の面でも、Video-XL-2は卓越したパフォーマンスを発揮しています。2048フレームのビデオの事前ロードにわずか12秒しかかかりません。これは、入力フレーム数が増えてもほぼ線形成長を示すため、その優れたスケーラビリティを証明しています。これに対して、Video-XLやVideoChat-Flashは長尺ビデオの入力条件下での効率がVideo-XL-2に比べて明らかに劣ります。

優れたビデオ理解能力と超長尺ビデオの効率的な処理性能により、Video-XL-2は多くの実際の応用シナリオで高い活用ポテンシャルを示しています。例えば、映画コンテンツの分析では、映画のストーリーを迅速かつ正確に理解し、関連する質問に答えられます。監視ビデオでは、異常行為を検出し、安全性に関する警告を発信します。また、映像作品の内容要約やゲーム配信のコンテンツ分析などにも役立ち、リアルワールドでの複雑なビデオ理解ニーズに効率的かつ正確な技術支援を提供します。

現在、Video-XL-2のモデル重みはコミュニティ全体に全面的に公開されており、プロジェクトのホームページ、モデルリンク、リポジトリリンクもすでに公表されています。今後、このモデルはさらなる実際のシナリオで重要な役割を果たし、長尺ビデオ理解技術のさらなる発展を促進すると期待されています。

プロジェクトのホームページ:

https://unabletousegit.github.io/video-xl2.github.io/

モデルhfリンク:

https://huggingface.co/BAAI/Video-XL-2

リポジトリリンク:

https://github.com/VectorSpaceLab/Video-XL