最近、アリババ・テンユンラボと南開大学コンピューターサイエンス学部は、革新的な動画大規模モデル圧縮方法であるLLaVA-Scissorを共同で公開しました。この技術は、動画モデル処理における一連の課題に対応することを目的としており、特に従来の方法が動画フレームを処理する際の高いtoken数による推論速度と拡張性の問題に取り組むものです。
動画モデルは各フレームごとに個別に符号化する必要があり、このシーケンシャルな処理によりtoken数が急増します。従来のtoken圧縮方法であるFastV、VisionZip、PLLaVAなどの画像分野での成果があるものの、動画理解では語義のカバー不足や時系列の冗長性などの問題が露呈しています。これを解決するために、LLaVA-Scissorはグラフ理論に基づくアルゴリズムであるSCC手法を採用しており、tokenの異なる語義領域を効果的に識別できます。
SCC手法はtoken間の類似性を計算し、類似性グラフを構築してグラフ内の連結成分を識別します。それぞれの連結成分のtokenは代表的なtokenで置き換えることができ、token数を大幅に削減します。処理効率を向上させるために、LLaVA-Scissorは二段階の時空間圧縮戦略を採用しており、空間圧縮と時間圧縮をそれぞれ行います。空間圧縮では各フレームの語義領域を識別し、時間圧縮ではフレーム間の冗長情報を除去し、最終的に生成されたtokenが動画全体を効率的に表現できるようにします。
実験検証において、LLaVA-Scissorは複数の動画理解ベンチマークテストで優れた結果を示しており、特に低token保持率下での優位性が顕著です。例えば、動画質問応答ベンチマークテストでは、LLaVA-Scissorは50%のtoken保持率で元のモデルと同等の性能を発揮し、35%および10%の保持率では他の方法よりも優れた性能を示します。長動画理解テストでも同様の良い結果を示しており、EgoSchemaデータセットでは35%のtoken保持率で正確率が57.94%に達しています。
この革新的な圧縮技術は、動画処理の効率を向上させ、今後の動画理解と処理の発展に向けて新しい道を開きました。LLaVA-Scissorの登場は、動画AI分野において積極的な影響を与えるでしょう。
ポイント:
🌟 LLaVA-Scissorはアリババと南開大学が共同で開発した、従来の方法におけるtoken数の急増問題を解決する革新的な動画大規模モデル圧縮技術です。
🔍 SCC手法はtokenの類似性を計算し、グラフを作成し、連結成分を識別することで、token数を効果的に減少させつつ重要な語義情報を保持することができます。
🏆 LLaVA-Scissorは複数の動画理解ベンチマークテストで優れた結果を示しており、特に低token保持率下での顕著な性能優位性が特徴です。