長視頻理解的“深水區”終於迎來了權威評測標準。2026 年 3 月 2 日,由 與 聯合提出的長視頻多模態檢索基準 LoVR (Long Video Retrieval) 正式宣佈被國際頂級會議 WWW 2026 (The Web Conference) 錄用。

這一成果填補了業界在真實長視頻(Long-form Video)多粒度檢索評測領域的空白。

核心突破:解決長視頻檢索的“三座大山”

傳統的視頻檢索基準大多侷限於短視頻(如 TikTok 風格),難以應對長視頻中複雜的語義關聯。LoVR 的出現針對性地解決了三大痛點:

  • 全粒度覆蓋:既支持全視頻 (Video-level) 的宏觀檢索,也支持片段級 (Clip-level) 的微觀精確定位,滿足了從“搜整部片子”到“搜某個瞬間”的多元需求。

  • 規模化高質量標註:配套了一套創新的標註流水線,通過大模型(VLM)自動化生成、質量自動評分與動態修正相結合,實現了低成本、可擴展的高質量多模態數據構建。

  • 真實場景建模:系統性地刻畫了長視頻檢索中的長程語義偏移、信息密度極高等真實難點。

技術規格:40,000+ 精細片段的支撐

不僅僅是一個理論框架,更是一個龐大的實戰數據庫:

  • 海量數據:包含 467 個真實長視頻,平均時長超過 25 分鐘。

  • 精細切片:衍生出超過 40,804 個精細片段,每個片段均配有經過人工和機器雙重驗證的高質量文本描述(Captions)。

  • 語義融合技術:引入了語義融合方法,確保在生成全視頻摘要時不會丟失關鍵的上下文信息,爲長程語義建模提供了統一的評測平臺。

行業觀察:校企聯研助推 AGI 落地

作爲與北大校企聯合研究的代表作,LoVR 的入選意味着國產數據庫領軍企業正從單一的存儲計算向 “向量檢索+多模態理解” 的前沿領域邁進。隨着長視頻在流媒體、監控監控、在線教育等領域的爆發,LoVR 提供的多粒度檢索標準將成爲未來視頻搜索引擎、AI 剪輯助手等應用走向“可靠”的重要基石。