近日,智源研究院聯合上海交通大學等機構正式發佈了一款新一代超長視頻理解模型——Video-XL-2。這一模型的推出標誌着長視頻理解技術在開源領域取得了重大突破,爲多模態大模型在長視頻內容理解方面的發展注入了新的活力。
在技術架構方面,Video-XL-2主要由視覺編碼器、動態Token合成模塊(DTS)以及大語言模型(LLM)三個核心組件構成。該模型採用SigLIP-SO400M作爲視覺編碼器,對輸入視頻進行逐幀處理,將每一幀編碼爲高維視覺特徵。隨後,DTS模塊對這些視覺特徵進行融合壓縮,並建模其時序關係,以提取更具語義的動態信息。處理後的視覺表徵通過平均池化與多層感知機(MLP)進一步映射到文本嵌入空間,實現模態對齊。最終,對齊後的視覺信息輸入至Qwen2.5-Instruct,以實現對視覺內容的理解與推理,並完成相應的下游任務。
在訓練策略上,Video-XL-2採用了四階段漸進式訓練的設計,逐步構建其強大的長視頻理解能力。前兩個階段主要利用圖像/視頻-文本對,完成DTS模塊的初始化與跨模態對齊;第三階段則引入更大規模、更高質量的圖像與視頻描述數據,初步奠定模型對視覺內容的理解能力;第四階段,在大規模、高質量且多樣化的圖像與視頻指令數據上進行微調,使Video-XL-2的視覺理解能力得到進一步提升與強化,從而能夠更準確地理解和響應複雜的視覺指令。

此外,Video-XL-2還系統性設計了效率優化策略。它引入了分段式的預裝填策略(Chunk-based Prefilling),將超長視頻劃分爲若干連續的片段(chunk),在每個chunk內部使用稠密注意力機制進行編碼,而不同chunk之間則通過時間戳傳遞上下文信息,顯著降低了預裝填階段的計算成本與顯存開銷。同時,Video-XL-2還設計了基於雙粒度KV的解碼機制(Bi-granularity KV Decoding),在推理過程中,模型會根據任務需求,選擇性地對關鍵片段加載完整的KVs(dense KVs),而對其他次要片段僅加載降採樣後的稀疏的KVs(sparse KVs),有效縮短了推理窗口長度,從而大幅提升解碼效率。得益於這些策略的協同優化,Video-XL-2實現了在單張顯卡上對萬幀級視頻的高效推理,顯著增強了其在實際應用場景中的實用性。
在實驗效果方面,Video-XL-2在MLVU、VideoMME和LVBench等主流長視頻評測基準上全面超越現有所有輕量級開源模型,達成當前最先進性能(SOTA),相較第一代Video-XL實現了顯著提升。尤其值得關注的是,在MLVU和LVBench上,Video-XL-2的性能已接近甚至超越瞭如Qwen2.5-VL-72B和LLaVA-Video-72B等參數規模高達720億的大模型。此外,在時序定位(Temporal Grounding)任務中,Video-XL-2也在Charades-STA數據集上取得了領先的結果,進一步驗證了其在多模態視頻理解場景中的廣泛適用性與實際價值。
在視頻長度方面,Video-XL-2展現出顯著優勢。在單張24GB消費級顯卡(如RTX3090/4090)上,Video-XL-2可處理長達千幀的視頻;而在單張80GB高性能顯卡(如A100/H100)上,模型更支持萬幀級視頻輸入,遠超現有主流開源模型。相較於VideoChat-Flash和初代Video-XL,Video-XL-2顯著拓展了視頻理解的長度並有效降低了資源需求,爲處理複雜的視頻任務提供了有力的支撐。
在速度上,Video-XL-2也展現出卓越性能。僅需12秒即可完成2048幀視頻的預填充,其預填充時間與輸入幀數之間呈現出近似線性增長,體現了其出色的可擴展性。相比之下,Video-XL與VideoChat-Flash在輸入長視頻條件下的工作效率明顯落後於Video-XL-2。
得益於出色的視頻理解能力與對超長視頻的高效處理性能,Video-XL-2在多種實際應用場景中展現出很高的應用潛力。例如,在影視內容分析方面,它可以快速準確地理解電影情節,回答相關問題;在監控視頻中,它能夠檢測異常行爲併發出安全預警;此外,它還可以用於影視作品的內容總結以及遊戲直播內容的分析等任務,爲現實世界中的複雜視頻理解需求提供高效、精準的技術支撐。
目前,Video-XL-2的模型權重已全面向社區開放,項目主頁、模型鏈接和倉庫鏈接均已公佈,未來該模型有望在更多實際場景中發揮重要作用,推動長視頻理解技術的進一步發展。
項目主頁:
https://unabletousegit.github.io/video-xl2.github.io/
模型hf鏈接:
https://huggingface.co/BAAI/Video-XL-2
倉庫鏈接:
https://github.com/VectorSpaceLab/Video-XL
