智譜AI宣佈CogVLM2-Video模型開源升級,這是一個在視頻理解領域取得顯著進展的模型。CogVLM2-Video通過引入多幀視頻圖像和時間戳作爲編碼器輸入,解決了現有視頻理解模型在處理時間信息丟失問題上的侷限。模型利用自動化的時間定位數據構建方法,生成了3萬條與時間相關的視頻問答數據,從而訓練出在公共視頻理解基準上達到最新性能的模型。CogVLM2-Video在視頻字幕生成和時間定位方面表現出色,爲視頻生成和摘要等任務提供了強大工具。
CogVLM2-Video通過從輸入視頻中提取幀並註釋時間戳信息,使語言模型能準確知道每一幀的對應時間,從而實現時間定位和相關問答。
爲了大規模訓練,開發了自動化的視頻問答數據生成流程,通過圖像理解模型和大型語言模型的結合使用,減少了標註成本並提高了數據質量。最終構造的Temporal Grounding Question and Answer (TQA)數據集包含3萬條記錄,爲模型訓練提供了豐富的時間定位數據。
在多個公開評測集上,CogVLM2-Video展現了卓越的性能,包括在VideoChatGPT-Bench和Zero-shot QA以及MVBench等量化評估指標上的優異表現。
代碼:https://github.com/THUDM/CogVLM2
項目網站:https://cogvlm2-video.github.io
在線試用:http://36.103.203.44:7868/