長視頻理解的“深水區”終於迎來了權威評測標準。2026 年 3 月 2 日,由 與 聯合提出的長視頻多模態檢索基準 LoVR (Long Video Retrieval) 正式宣佈被國際頂級會議 WWW 2026 (The Web Conference) 錄用。
這一成果填補了業界在真實長視頻(Long-form Video)多粒度檢索評測領域的空白。
核心突破:解決長視頻檢索的“三座大山”
傳統的視頻檢索基準大多侷限於短視頻(如 TikTok 風格),難以應對長視頻中複雜的語義關聯。LoVR 的出現針對性地解決了三大痛點:
全粒度覆蓋:既支持全視頻 (Video-level) 的宏觀檢索,也支持片段級 (Clip-level) 的微觀精確定位,滿足了從“搜整部片子”到“搜某個瞬間”的多元需求。
規模化高質量標註:配套了一套創新的標註流水線,通過大模型(VLM)自動化生成、質量自動評分與動態修正相結合,實現了低成本、可擴展的高質量多模態數據構建。
真實場景建模:系統性地刻畫了長視頻檢索中的長程語義偏移、信息密度極高等真實難點。
技術規格:40,000+ 精細片段的支撐
海量數據:包含 467 個真實長視頻,平均時長超過 25 分鐘。
精細切片:衍生出超過 40,804 個精細片段,每個片段均配有經過人工和機器雙重驗證的高質量文本描述(Captions)。
語義融合技術:引入了語義融合方法,確保在生成全視頻摘要時不會丟失關鍵的上下文信息,爲長程語義建模提供了統一的評測平臺。
行業觀察:校企聯研助推 AGI 落地
作爲
