中國科學技術大學與字節跳動即將聯合發佈一款具有里程碑意義的 端到端長視頻生成模型。該模型能夠直接生成**分鐘級長度、480p 分辨率、24幀/秒(fps)**的高質量視頻,並支持多鏡頭場景切換,標誌着國產視頻生成技術在全球生成式 AI 競賽中實現關鍵突破。
這項成果的核心創新在於其底層算法——MoGA(Modular Global Attention),這是一種全新的注意力機制,專爲解決長視頻生成中的上下文擴展與算力開銷問題而設計。憑藉 MoGA 的結構優化,模型可處理長達 580K token 的上下文信息,大幅降低計算成本,使長時間、多場景的視頻生成成爲可能。
研究團隊表示,傳統視頻生成模型往往受限於顯存和計算量,只能生成幾秒鐘的動畫 GIF 或短片。而 MoGA 的引入,讓模型能夠“一次性”生成包含多個鏡頭切換、視覺敘事連貫的 “迷你短片”,極大拓展了生成式視頻模型的應用邊界。
此外,MoGA 具有高度的 模塊化與兼容性,可直接與現有的高效加速庫(如 FlashAttention、xFormers、DeepSpeed 等)集成,實現更快的訓練與推理效率。這意味着該技術不僅具備科研突破意義,也具備產業落地潛力,可應用於影視創作、廣告生成、遊戲過場動畫以及數字人內容生產等領域。
隨着 OpenAI、Pika、Runway 等公司相繼推進短視頻生成,中國科大與字節跳動此次推出的模型被認爲是國內首個能真正實現分鐘級長視頻生成的系統,其在算法、效率和可擴展性上的領先性,或將推動中國在視頻生成領域進入全球前列。
地址:https://jiawn-creator.github.io/mixture-of-groups-attention/
