在AI的世界裏,讓機器看懂視頻,可比看懂圖片難多了。視頻是動態的,有聲音,有動作,還有一堆複雜的場景。以前的AI,看視頻就跟看天書似的,經常是一頭霧水。
但VideoPrism的出現,可能要改變這一切。這是一款由谷歌研究團隊開發的視頻編碼器,它能在多種視頻理解任務上,用一個模型就達到最先進的水平。不管是給視頻分類,定位,還是生成字幕,甚至是回答關於視頻的問題,VideoPrism都能輕鬆應對。
如何訓練VideoPrism?
訓練VideoPrism的過程,就像是在教一個小孩子學會觀察世界。首先,你得給它看各種各樣的視頻,從日常生活到科學觀察,什麼都有。然後,你還要用一些“高質量”的視頻-字幕對,以及一些帶有噪聲的平行文本(比如自動語音識別的文本),來訓練它。
預訓練方法
數據:VideoPrism 使用了3600萬個高質量的視頻-字幕對和5820百萬個帶有噪聲平行文本的視頻片段。
模型架構:基於標準視覺變換器(ViT),在空間和時間上採用因子化設計。
訓練算法:包括視頻-文本對比訓練和掩蔽視頻建模兩個階段。
訓練過程中,VideoPrism會經歷兩個階段。第一階段,它通過對比學習和全局-局部蒸餾,來學習視頻和文本之間的聯繫。第二階段,它通過掩蔽視頻建模,進一步提升對視頻內容的理解。
研究人員在多個視頻理解任務上測試了VideoPrism,結果讓人眼前一亮。在33個基準測試中,VideoPrism在30個上都達到了最先進的水平。無論是在網絡視頻問題回答,還是在科學領域的計算機視覺任務,VideoPrism都表現出了強大的能力。
VideoPrism的誕生,爲AI視頻理解領域帶來了新的可能性。它不僅可以幫助AI更好地理解視頻內容,還可能在教育、娛樂、安全等多個領域發揮重要作用。
但VideoPrism也面臨着一些挑戰,比如如何處理長視頻,以及如何避免在訓練過程中引入偏見等。這些都是未來研究需要解決的問題。
論文地址:https://arxiv.org/pdf/2402.13217