在數字媒體時代,視頻已成爲我們表達自己、分享故事的主要方式。但高質量視頻的創作通常需要專業技能和昂貴的設備。現在,通過Snap Video,你只需用文字描述你想要的場景,就能自動生成視頻。

image.png

當前的圖像生成模型已經展現出卓越的質量和多樣性。受此啓發,研究者開始將這些模型應用於視頻生成。然而,視頻內容的高度冗餘性使得直接將圖像模型應用於視頻生成領域,會降低動作的真實性、視覺質量和可擴展性。

Snap Video是一個以視頻爲中心的模型,系統性地解決了這些挑戰。首先,它擴展了EDM框架,考慮了空間和時間上的冗餘像素,自然支持視頻生成。其次,它提出了一種基於變換器的新型架構,比U-Net訓練速度快3.31倍,推理速度快4.5倍。這使得Snap Video能夠高效地訓練具有數十億參數的文本到視頻模型,首次達到最先進的結果,並生成質量更高、時間一致性和動作複雜性顯著的視頻。

技術亮點:

時空聯合建模:Snap Video能夠合成具有大幅度運動的連貫視頻,同時保留大規模文本到視頻生成器的語義控制能力。

高分辨率視頻生成:採用兩階段級聯模型,先生成低分辨率視頻,再進行高分辨率上採樣,避免了潛在的時間不一致性問題。

基於FIT的架構:Snap Video利用了FIT(Far-reaching Interleaved Transformers)架構,通過學習壓縮的視頻表示,實現了高效的時空計算聯合建模。

Snap Video在UCF101和MSR-VTT等廣泛採用的數據集上進行了評估,表現出在生成動作質量方面的特別優勢。用戶研究也表明,Snap Video在視頻文本對齊、動作數量和質量方面優於最新的方法。

論文還討論了視頻生成領域的其他研究工作,包括基於對抗訓練或自迴歸生成技術的方法,以及最近在文本到視頻生成任務中採用擴散模型的進展。

Snap Video通過將視頻作爲一等公民來對待,系統性地解決了擴散過程和架構在文本到視頻生成中的常見問題。它提出的修改EDM擴散框架和基於FIT的架構,顯著提高了視頻生成的質量和可擴展性。

論文地址:https://arxiv.org/pdf/2402.14797