現在、マルチモーダル大規模言語モデル(MLLM)は動画理解分野で著しい進歩を遂げていますが、超長尺動画の処理は依然として課題となっています。これは、MLLMが最大コンテキスト長を超える数千ものビジュアルトークンを処理するのが困難であり、トークン集約による情報減衰の影響を受けるためです。同時に、大量の動画トークンは高額な計算コストも引き起こします。
これらの問題を解決するために、智源研究院は上海交通大学、中国人民大学、北京大学、北京郵電大学などの複数の大学と共同で、効率的な時間単位動画理解のために設計された超長尺ビジュアル言語モデルであるVideo-XLを提案しました。Video-XLの中核は「ビジュアルコンテキスト潜在要約」技術であり、LLMが持つ固有のコンテキストモデリング能力を利用して、長いビジュアル表現をよりコンパクトな形式に効果的に圧縮します。

簡単に言うと、動画の内容をより簡潔な形式に圧縮することです。まるで大きな牛を一碗の牛肉エキスに凝縮するようなもので、モデルが消化吸収しやすくなります。
この圧縮技術は効率を向上させるだけでなく、動画の重要な情報を効果的に保持することもできます。長尺動画には多くの冗長情報が含まれていることが多く、まるで長くて退屈な話のように感じられます。Video-XLはこれらの不要な情報を正確に除去し、重要な部分だけを残すことで、モデルが長尺動画の内容を理解する際に迷子になることを防ぎます。

Video-XLは理論上だけでなく、実践的な能力も非常に強力です。複数の長尺動画理解ベンチマークテストにおいて、Video-XLは最先端の成果を上げており、特にVNBenchテストでは、既存の最良の方法よりも約10%高い精度を達成しています。
さらに印象的なのは、Video-XLが効率と効果の間に驚くべきバランスを実現していることです。単一の80GB GPUで2048フレームの動画を処理でき、「大海撈針」評価においても約95%の精度を維持しています。
Video-XLの応用範囲も非常に広いです。一般的な長尺動画の理解に加えて、映画の要約、監視異常検知、広告挿入の識別などの特定のタスクにも対応できます。
つまり、これからは映画の長すぎるストーリーに我慢する必要がなくなり、Video-XLを使って簡潔な要約を生成することで、時間と労力を節約できます。あるいは、監視映像を監視し、異常な出来事を自動的に検出することで、人による監視よりも効率的に作業できます。
プロジェクトアドレス:https://github.com/VectorSpaceLab/Video-XL
