站長之家(ChinaZ.com)6月17日 消息:近日,智譜、清華大學和北京大學合作推出了一個名爲LVBench的長視頻理解基準測試項目。現有的多模態大型語言模型雖然在短視頻理解方面取得了長足進步,但在處理長達數小時的長視頻時仍面臨挑戰。爲彌補這一空白,LVBench應運而生。
這個項目包含了6個主要類別和21個子類別的數小時QA數據,涵蓋了來自公開來源的電視劇、體育轉播和日常監控錄像等不同類型的視頻內容。這些數據都經過高質量的標註,並使用LLM篩選出具有挑戰性的問題。據悉,LVBench數據集涵蓋了視頻摘要、事件檢測、角色識別和場景理解等多種任務。
LVBench基準的推出,不僅旨在檢驗模型在長視頻場景下的推理和運作能力,更將推動相關技術的突破和創新,爲實現長視頻領域的具身智能決策、深度影視評論和專業體育解說等應用需求注入新動力。
許多研究機構已在LVBench數據集上開展工作,通過建立面向長視頻任務的大模型,逐步拓展人工智能在理解長期信息流方面的邊界,爲視頻理解、多模態學習等領域的持續探索注入新的活力。
github:https://github.com/THUDM/LVBench
項目:https://lvbench.github.io
論文:https://arxiv.org/abs/2406.08035