站長之家(ChinaZ.com)6月17日 消息:北京大學與快手AI團隊合作,成功攻克了複雜視頻生成的難題。他們提出了一種名爲VideoTetris的新框架,能夠像拼圖一樣輕鬆組合各種細節,生成高難度、指令複雜的視頻。該框架在複雜視頻生成任務中超越了Pika、Gen-2等商用模型。

VideoTetris框架首次定義了組合視頻生成任務,包括兩個子任務:1) 跟隨複雜組合指令的視頻生成;2) 跟隨遞進的組合式多物體指令的長視頻生成。團隊發現,幾乎所有現有的開源模型和商用模型都未能生成正確的視頻。例如,輸入"左邊一個可愛的棕色狗狗,右邊一隻打盹的貓在陽光下小憩",結果生成的視頻往往融合了兩個物體信息,顯得怪異。

QQ截圖20240617104639.jpg

相比之下,VideoTetris能夠成功保留所有的位置信息和細節特徵。在長視頻生成中,它支持更復雜的指令,如"從一隻可愛的棕色松鼠在一堆榛子上過渡到一隻可愛的棕色松鼠和一隻可愛的白色松鼠在一堆榛子上"。生成的視頻順序與輸入指令一致,兩隻松鼠還能自然地交換食物。

VideoTetris框架採用了時空組合擴散方法。它首先將文本提示按時間解構,爲不同視頻幀指定不同的提示信息。然後在每一幀上進行空間維度的解構,將不同物體對應到不同的視頻區域。最後,通過時空交叉注意力進行組合,實現高效的組合指令生成。

爲了生成更高質量的長視頻,團隊還提出了一種增強的訓練數據預處理方法,使長視頻生成更加動態穩定。此外,引入了參考幀注意力機制,使用原生VAE對之前的幀信息編碼,區別於其他模型使用CLIP編碼的方式,從而獲得更好的內容一致性。

優化後的結果是,長視頻不再有大面積偏色現象,能夠更好地適應複雜指令,生成的視頻更具有動感,更符合自然。團隊還引入了新的評測指標VBLIP-VQA和VUnidet,首次將組合生成評價方法擴展到視頻維度。

實驗測試表明,在組合視頻生成能力上,VideoTetris模型的表現超過了所有開源模型,甚至是商用模型如Gen-2和Pika。據悉,該代碼將完全開源。

項目地址:https://top.aibase.com/tool/videotetris