長動画理解の「深水区」にようやく権威的な評価基準が登場しました。2026年3月2日、と共同で提案した長動画マルチモーダル検索基準LoVR (Long Video Retrieval)が、国際的なトップ会議WWW 2026 (The Web Conference)に採用されたと正式に発表されました。

この成果は、現実の長動画(Long-form Video)における多スケール検索評価分野の空白を埋めました。

核心的な突破:長動画検索の「三座の大山」を解決

従来の動画検索基準は短い動画(たとえばTikTok風)に限られ、長動画の複雑な意味関係に対応できませんでした。LoVRの登場により、以下の三大課題が明確に解決されました。

  • 全粒度カバー全動画 (Video-level)のマクロ検索だけでなく、セグメントレベル (Clip-level)のミクロな精確な位置検索もサポートしており、「映画全体を検索する」から「ある瞬間を検索する」まで、さまざまなニーズに対応しています。

  • 大規模かつ高品質なラベリング:革新的なラベリングフローを備え、大規模モデル(VLM)を用いた自動生成、品質の自動スコアリング、および動的修正を組み合わせることで、低コストで拡張可能な高品質なマルチモーダルデータ構築が可能です。

  • リアルなシナリオモデリング:長動画検索における長期的な意味のズレや情報密度の高いなどの現実的な難点を体系的に表現しています。

技術仕様:40,000以上の精密なセグメントの支援

は単なる理論フレームワークではなく、膨大な実戦データベースです:

  • 膨大なデータ467本の実際の長動画を含んでおり、平均時間は25分以上です。

  • 精密なスライス:合計で40,804個以上の精密なセグメントが作成され、それぞれに人工と機械による両方の検証を経た高品質なテキスト説明(キャプション)が付いています。

  • 意味融合技術:意味融合手法を導入し、全動画の要約を作成する際に重要な文脈情報を失わないようにし、長期的な意味モデリングのために統一された評価プラットフォームを提供します。

業界観察:大学と企業の連携がAGIの実装を推進

と北京大学との大学と企業の共同研究の代表作として、LoVRの採用は中国のデータベースのリーディング企業が単なるストレージと計算から、「ベクトル検索+マルチモーダル理解」の最先端領域へと進んでいることを示しています。長動画がストリーミング、監視、オンライン教育などの分野で爆発的に増加する中、LoVRによって提供される多スケール検索基準は、今後のビデオ検索エンジンやAI編集アシスタントなどのアプリケーションが「信頼性」へと向かうための重要な基盤となります。