傳統的視頻理解模型在處理長視頻時面臨着許多挑戰,包括理解長視頻所帶來的複雜上下文。儘管已有不少研究致力於提升視頻理解能力,依然難以有效克服訓練和推理效率低下的問題。針對這些問題,研究團隊通過 HiCo 技術,將視頻信息中的冗餘部分進行壓縮,從而顯著降低計算需求,同時保留關鍵信息。

image.png

具體而言,HiCo 通過對視頻進行層次化壓縮,將長視頻分割成短片段,進而減少處理的標記數量。這一方法不僅降低了模型對計算資源的要求,還提升了上下文窗口的寬度,增強了模型的處理能力。此外,研究團隊還利用了與用戶查詢的語義關聯,以進一步減少視頻標記的數量。

在長視頻處理的具體實現中,“VideoChat-Flash” 採用了一種多階段的短視頻到長視頻的學習方案。研究人員首先使用短視頻及其對應的註釋進行監督微調,隨後逐步引入長視頻進行訓練,最終實現了對混合長度語料的全面理解。這種方式不僅提高了模型的視覺感知能力,還爲長視頻的處理提供了豐富的數據支持,研究團隊構建了一個包含300,000小時視頻和2億字註釋的龐大數據集。

此外,研究中還提出了一種改進的 “乾草堆中的針” 任務,用於多跳視頻配置。通過新的基準,模型不僅需要找到視頻中的單一目標圖像,還需理解多個相互關聯的圖像序列,從而提高了模型對上下文的理解能力。

實驗結果表明,所提出的方法在計算上減少了兩個數量級,特別是在短視頻和長視頻的基準測試中表現出色,成爲新的短視頻理解領域的領導者。同時,該模型在長視頻理解方面也超越了現有的開源模型,顯示出強大的時間定位能力。

論文:https://arxiv.org/abs/2501.00574

劃重點:

🌟 研究人員提出了層次化視頻標記壓縮技術 HiCo,顯著降低長視頻處理的計算需求。  

📹 “VideoChat-Flash” 系統採用多階段學習方法,結合短視頻和長視頻進行訓練,提升了模型的理解能力。  

🔍 實驗結果顯示,該方法在多個基準測試中達到了新的性能標準,成爲長視頻處理領域的先進模型。