動画理解分野において、従来のAIモデルは短い動画しか処理できず、数時間、あるいはそれ以上の長さの動画になると対応が困難でした。これは主に、長尺動画処理における「ノイズと冗長性」と「メモリと計算能力」の制限が原因です。しかし、Goldfishと呼ばれる新技術によって、この状況が一変しました。

image.png

製品入口:https://top.aibase.com/tool/goldfish

Goldfishは、任意の長さの動画を処理するために設計された手法です。効率的な検索メカニズムを採用し、まず長尺動画から指示と最も関連性の高い上位K個の動画片段を抽出し、それらの片段に基づいて最終的な回答を生成します。これにより、Goldfishは映画やドラマなどの長尺動画を効率的に処理できます。

image.png

この目標を実現するため、GoldfishチームはMiniGPT4-Videoも開発しました。これは、動画片段の詳細な説明を生成できるツールです。動画のフレームと字幕を組み合わせることで、MiniGPT4-Videoは動画内の視覚情報とテキスト情報を正確に理解し、長尺動画処理能力を向上させます。

image.png

さらに、チームは長尺動画の理解能力を評価するためのベンチマークテストであるTVQA-longを提案しました。Goldfishはこのテストで41.78%の精度を達成し、従来技術を凌駕しました。

それだけではありません。Goldfishは短尺動画の理解においても優れた性能を発揮します。MSVD、MSRVTT、TGIF、TVQAなど、複数の短尺動画ベンチマークテストにおいて、Goldfishは既存の最先端手法を上回り、短尺動画処理における高い能力を示しました。

Goldfishは革新的な検索メカニズムと効率的な説明生成手法により、長尺動画処理の課題を克服し、同時に短尺動画理解においても顕著な進歩を遂げました。

要点:

Goldfishは効率的な検索メカニズムとMiniGPT4-Videoの説明生成技術により、任意の長さの動画を処理し、従来モデルの長尺動画処理における困難を解決しました。

TVQA-longベンチマークテストにおいて、Goldfishは41.78%の精度を達成し、従来技術を上回る性能を示しました。

Goldfishは複数の短尺動画ベンチマークテストで優れた成績を収め、既存の最先端手法を上回り、短尺動画理解における総合的な能力を実証しました。