AIの世界では、機械に動画を理解させることは、画像を理解させるよりもはるかに困難です。動画は動的で、音声や動きがあり、複雑なシーンが数多く含まれています。従来のAIは、動画を理解することが難しく、しばしば混乱していました。
しかし、VideoPrismの登場により、状況が一変する可能性があります。これはGoogleの研究チームが開発したビデオエンコーダーで、様々な動画理解タスクにおいて、単一のモデルで最先端の性能を達成します。動画の分類、位置特定、字幕生成、さらには動画に関する質問への回答など、VideoPrismは容易にこなします。
VideoPrismの学習方法
VideoPrismの学習過程は、子供に世界の観察方法を教えるようなものです。まず、日常生活から科学的な観察まで、様々な動画を見せます。そして、「高品質」の動画と字幕のペア、ノイズを含む平行テキスト(例えば、自動音声認識のテキスト)を使用して学習させます。
事前学習方法
データ:VideoPrismは、3600万件の高品質な動画と字幕のペア、および5820万件のノイズを含む平行テキスト付きの動画片段を使用しました。
モデルアーキテクチャ:標準的なVision Transformer(ViT)をベースに、空間と時間において因数分解設計を採用しています。
学習アルゴリズム:動画とテキストの対照学習と、マスクされた動画のモデリングの2段階からなります。
学習過程では、VideoPrismは2段階のプロセスを経ます。第1段階では、対照学習とグローバル・ローカル蒸留を通じて、動画とテキスト間の関連性を学習します。第2段階では、マスクされた動画のモデリングにより、動画内容の理解をさらに深めます。
研究者たちは複数の動画理解タスクでVideoPrismをテストし、その結果は目を見張るものでした。33個のベンチマークテストのうち30個で最先端の性能を達成しました。オンライン動画の質問応答から、科学分野のコンピュータビジョンタスクまで、VideoPrismは強力な能力を示しました。
VideoPrismの誕生は、AIによる動画理解分野に新たな可能性をもたらしました。動画内容の理解を深めるだけでなく、教育、エンターテインメント、セキュリティなど、様々な分野で重要な役割を果たす可能性があります。
しかし、VideoPrismには、長尺動画の処理方法や、学習過程でのバイアスの回避など、いくつかの課題も残されています。これらは今後の研究で解決すべき問題です。
論文アドレス:https://arxiv.org/pdf/2402.13217