近日,阿里巴巴通義實驗室與南開大學計算機科學學院聯合發佈了一種創新的視頻大模型壓縮方法 ——LLaVA-Scissor。這一技術的出現旨在應對視頻模型處理中的一系列挑戰,特別是傳統方法在處理視頻幀時所面臨的高 token 數量帶來的推理速度和擴展性問題。

image.png

視頻模型需要對每一幀進行單獨編碼,這種序列化處理導致 token 數量激增。儘管傳統的 token 壓縮方法如 FastV、VisionZip 和 PLLaVA 等在圖像領域取得了一定成果,但在視頻理解方面卻暴露出語義覆蓋不足和時序冗餘等問題。爲此,LLaVA-Scissor 採用了一種基於圖論的算法 ——SCC 方法,能夠有效識別 token 集中不同的語義區域。

SCC 方法通過計算 token 之間的相似性,構建相似性圖,並識別圖中的連通分量。每個連通分量中的 token 可以用一個代表性 token 來代替,從而大幅度減少 token 數量。爲了提升處理效率,LLaVA-Scissor 採用了兩步時空壓縮策略,分別進行空間壓縮和時間壓縮。在空間壓縮中,對每一幀進行語義區域的識別,而時間壓縮則去除跨幀的冗餘信息,確保最終生成的 token 能夠高效表示整個視頻。

image.png

在實驗驗證方面,LLaVA-Scissor 在多個視頻理解基準測試中表現突出,尤其在低 token 保留率下的優勢更爲明顯。例如,在視頻問答基準測試中,LLaVA-Scissor 在50% 的 token 保留率下,與原始模型性能相當,而在35% 和10% 的保留率下,其性能優於其他方法。在長視頻理解測試中,該方法同樣展示了良好的表現,在 EgoSchema 數據集上,LLaVA-Scissor 在35% 的 token 保留率下準確率達到57.94%。

這一創新的壓縮技術不僅提升了視頻處理的效率,也爲未來視頻理解和處理的發展開闢了新的方向。LLaVA-Scissor 的推出,無疑將在視頻人工智能領域產生積極的影響。

劃重點:

🌟 LLaVA-Scissor 是阿里巴巴與南開大學聯合開發的創新視頻大模型壓縮技術,旨在解決傳統方法中 token 數量激增的問題。  

🔍 SCC 方法通過計算 token 相似性,構建圖並識別連通分量,能夠有效減少 token 數量並保留關鍵語義信息。  

🏆 LLaVA-Scissor 在多個視頻理解基準測試中表現優異,尤其在低 token 保留率下顯示出顯著的性能優勢。