北大快手聯合推視頻生成框架VideoTetris 複雜視頻生成效果超越Pika

站長之家（ChinaZ.com）6月17日消息:北京大學與快手AI團隊合作，成功攻克了複雜視頻生成的難題。他們提出了一種名爲VideoTetris的新框架，能夠像拼圖一樣輕鬆組合各種細節，生成高難度、指令複雜的視頻。該框架在複雜視頻生成任務中超越了Pika、Gen-2等商用模型。

VideoTetris框架首次定義了組合視頻生成任務，包括兩個子任務:1）跟隨複雜組合指令的視頻生成;2) 跟隨遞進的組合式多物體指令的長視頻生成。團隊發現，幾乎所有現有的開源模型和商用模型都未能生成正確的視頻。例如，輸入"左邊一個可愛的棕色狗狗，右邊一隻打盹的貓在陽光下小憩"，結果生成的視頻往往融合了兩個物體信息，顯得怪異。

QQ截圖20240617104639.jpg

相比之下，VideoTetris能夠成功保留所有的位置信息和細節特徵。在長視頻生成中，它支持更復雜的指令，如"從一隻可愛的棕色松鼠在一堆榛子上過渡到一隻可愛的棕色松鼠和一隻可愛的白色松鼠在一堆榛子上"。生成的視頻順序與輸入指令一致，兩隻松鼠還能自然地交換食物。

VideoTetris框架採用了時空組合擴散方法。它首先將文本提示按時間解構，爲不同視頻幀指定不同的提示信息。然後在每一幀上進行空間維度的解構，將不同物體對應到不同的視頻區域。最後，通過時空交叉注意力進行組合，實現高效的組合指令生成。

爲了生成更高質量的長視頻，團隊還提出了一種增強的訓練數據預處理方法，使長視頻生成更加動態穩定。此外，引入了參考幀注意力機制，使用原生VAE對之前的幀信息編碼，區別於其他模型使用CLIP編碼的方式，從而獲得更好的內容一致性。

優化後的結果是，長視頻不再有大面積偏色現象，能夠更好地適應複雜指令，生成的視頻更具有動感，更符合自然。團隊還引入了新的評測指標VBLIP-VQA和VUnidet，首次將組合生成評價方法擴展到視頻維度。

實驗測試表明，在組合視頻生成能力上，VideoTetris模型的表現超過了所有開源模型，甚至是商用模型如Gen-2和Pika。據悉，該代碼將完全開源。

項目地址：https://top.aibase.com/tool/videotetris

高盛研判下半年市場：資金撤離七大科技巨頭，半導體等 AI 上游板塊更受青睞

高盛衍生品專家Brian Garret指出，投資者普遍低配科技七巨頭，資金轉向直接受益AI擴張的半導體。七巨頭跑輸大盤，市場擔憂其AI鉅額投入盈利難，機構減倉。期權市場避險情緒升溫，追蹤納指的景順QQQ ETF下行對衝成本已顯著高於小盤股。

字節豆包 AI 手機項目生變：硬件負責人離職，項目進入“調整期”

字節跳動AI硬件團隊Ocean核心成員、豆包手機硬件產品負責人林夕近期離職，成爲公司2024年啓動AI手機項目以來首位核心硬件負責人出走，引發外界對項目前景的猜測。內部消息人士否認“豆包手機項目徹底消失”傳聞，稱項目並未關停，而是轉入新調整階段。

AI 研究進入“自動駕駛”時代：楊植麟談大模型訓練的第三階段

人工智能研究範式正經歷深刻蛻變。在2026中關村論壇年會上，月之暗面創始人楊植麟指出，AI研發已進入“AI主導研究”的第三階段。從2026年起，研究方式將發生質的飛躍，過去AI模型迭代高度依賴人類研究員規則設計與精細調優的範式將被顛覆，AI將逐步主導自身研發。

北大快手聯合推視頻生成框架VideoTetris 複雜視頻生成效果超越Pika

相關推薦

讓機器人學會番茄炒蛋的“幕後推手”：Genesis AI 開源全棧訓練場

9.9元解鎖無限出圖！香蕉 2、Image2免費隨便造

高盛研判下半年市場：資金撤離七大科技巨頭，半導體等 AI 上游板塊更受青睞

字節豆包 AI 手機項目生變：硬件負責人離職，項目進入“調整期”

AI 研究進入“自動駕駛”時代：楊植麟談大模型訓練的第三階段