近日,阿里巴巴通义实验室与南开大学计算机科学学院联合发布了一种创新的视频大模型压缩方法 ——LLaVA-Scissor。这一技术的出现旨在应对视频模型处理中的一系列挑战,特别是传统方法在处理视频帧时所面临的高 token 数量带来的推理速度和扩展性问题。

image.png

视频模型需要对每一帧进行单独编码,这种序列化处理导致 token 数量激增。尽管传统的 token 压缩方法如 FastV、VisionZip 和 PLLaVA 等在图像领域取得了一定成果,但在视频理解方面却暴露出语义覆盖不足和时序冗余等问题。为此,LLaVA-Scissor 采用了一种基于图论的算法 ——SCC 方法,能够有效识别 token 集中不同的语义区域。

SCC 方法通过计算 token 之间的相似性,构建相似性图,并识别图中的连通分量。每个连通分量中的 token 可以用一个代表性 token 来代替,从而大幅度减少 token 数量。为了提升处理效率,LLaVA-Scissor 采用了两步时空压缩策略,分别进行空间压缩和时间压缩。在空间压缩中,对每一帧进行语义区域的识别,而时间压缩则去除跨帧的冗余信息,确保最终生成的 token 能够高效表示整个视频。

image.png

在实验验证方面,LLaVA-Scissor 在多个视频理解基准测试中表现突出,尤其在低 token 保留率下的优势更为明显。例如,在视频问答基准测试中,LLaVA-Scissor 在50% 的 token 保留率下,与原始模型性能相当,而在35% 和10% 的保留率下,其性能优于其他方法。在长视频理解测试中,该方法同样展示了良好的表现,在 EgoSchema 数据集上,LLaVA-Scissor 在35% 的 token 保留率下准确率达到57.94%。

这一创新的压缩技术不仅提升了视频处理的效率,也为未来视频理解和处理的发展开辟了新的方向。LLaVA-Scissor 的推出,无疑将在视频人工智能领域产生积极的影响。

划重点:

🌟 LLaVA-Scissor 是阿里巴巴与南开大学联合开发的创新视频大模型压缩技术,旨在解决传统方法中 token 数量激增的问题。  

🔍 SCC 方法通过计算 token 相似性,构建图并识别连通分量,能够有效减少 token 数量并保留关键语义信息。  

🏆 LLaVA-Scissor 在多个视频理解基准测试中表现优异,尤其在低 token 保留率下显示出显著的性能优势。