近日,研究人員推出了 ShareGPT4Video 系列,旨在通過精細而詳盡的字幕促進大規模視頻語言模型(LVLMs)的視頻理解以及文本到視頻模型(T2VMs)的視頻生成。
ShareGPT4Video 包括:
1)ShareGPT4Video,由 GPT4V 註釋的40,000個不同長度和來源視頻的密集字幕,通過精心設計的數據過濾和註釋策略開發而成。
2)ShareCaptioner-Video,一種高效且功能強大的視頻字幕生成模型,適用於任意視頻,由它註釋了4,800,000個高質量美學視頻。
3)ShareGPT4Video-8B,一個簡單但卓越的 LVLM,在三個先進的視頻基準測試中取得了 SOTA 性能。
除了不具擴展性且成本高昂的人類標註者外,研究發現使用 GPT4V 以簡單的多幀或幀串聯輸入策略爲視頻生成字幕導致結果缺乏細節,並且有時會出現時間上的混亂。研究團隊認爲設計高質量視頻字幕策略的挑戰在於三個方面:
1)理解幀間精確的時間變化。
2)描述幀內詳細的內容。
3)對於任意長度的視頻,幀數量的可擴展性。
爲此,研究人員精心設計了差分視頻字幕策略,對於生成任意分辨率、寬高比和長度的視頻字幕是穩定、可擴展且高效的。基於此構建了 ShareGPT4Video,包含40,000個高質量視頻,涵蓋了廣泛的類別,生成的字幕包含豐富的世界知識、物體屬性、攝像機運動以及關鍵的事件詳細和精確的時間描述。
基於 ShareGPT4Video,又進一步開發了 ShareCaptioner-Video,一個優秀的字幕生成模型,能夠高效生成任意視頻的高質量字幕。用它註釋了4,800,000個美學吸引力強的視頻,並在一個10秒的文本到視頻生成任務上驗證了它們的有效性。ShareCaptioner-Video 是一個四合一的卓越視頻字幕模型,具有以下功能:快速字幕、滑動字幕、剪輯摘要和快速重新字幕。

在視頻理解方面,研究團隊還驗證了 ShareGPT4Video 對幾個當前 LVLM 體系結構的有效性,並呈現了出色的新 LVLM ShareGPT4Video-8B。
