當前,多模態大型語言模型(MLLM)在視頻理解領域取得了顯著進展,但處理超長視頻仍然是一個挑戰。 這是因爲,MLLM 通常難以處理超過最大上下文長度的數千個視覺標記,並且會受到標記聚合導致的信息衰減的影響。 同時,大量的視頻標記也會帶來高昂的計算成本。
爲了解決這些問題,智源研究院聯合上海交通大學、中國人民大學、北京大學和北京郵電大學等多所高校提出了 Video-XL,這是一種專爲高效的小時級視頻理解而設計的超長視覺語言模型。 Video-XL 的核心在於“視覺上下文潛在摘要”技術,它利用 LLM 固有的上下文建模能力,將長視覺表示有效地壓縮成更緊湊的形式。

簡單來說,就是把視頻內容壓縮成更精簡的形式,就像把一整頭牛濃縮成一碗牛肉精華,方便模型消化吸收。
這種壓縮技術不僅提高了效率,還能有效保留視頻的關鍵信息。要知道,長視頻裏經常充斥着大量冗餘信息,就像老太太的裹腳布,又長又臭。Video-XL 則能精準地剔除這些無用信息,只保留精華部分,這就保證了模型在理解長視頻內容時不會迷失方向。

Video-XL 不僅理論上很牛,實戰能力也相當強悍。在多個長視頻理解基準測試中,Video-XL 都取得了領先的成績,尤其是在 VNBench 測試中,它的準確率比現有最佳方法高出近10%。
更令人印象深刻的是,Video-XL 在效率和效果之間取得了驚人的平衡,它可以在單個80GB GPU 上處理2048幀視頻,同時在“大海撈針”評估中仍能保持近95% 的準確率。
Video-XL 的應用前景也非常廣闊。除了能理解一般的長視頻,它還能勝任一些特定任務,比如電影摘要、監控異常檢測和廣告植入識別。
這意味着以後看電影不用再忍受冗長的劇情,直接用 Video-XL 生成一份精簡的摘要,省時又省力;或者用它來監控監控畫面,自動識別異常事件,比人工盯梢效率高多了。
項目地址:https://github.com/VectorSpaceLab/Video-XL
論文:https://arxiv.org/pdf/2409.14485
