阿里巴巴集團的科學家們推出了 VACE,這是一種旨在統一處理廣泛視頻生成和編輯任務的通用人工智能模型。
VACE 的核心是增強的擴散 Transformer 架構,其創新之處在於“視頻條件單元”(VCU)這一新型輸入格式。VCU 將文本提示、參考圖像或視頻序列以及空間蒙版等多種模態輸入提煉爲統一的表示,並通過專門的機制協調不同輸入,避免衝突。
概念解耦實現精細控制
VACE 採用“概念解耦”技術將圖像分割爲可編輯和固定區域,實現對修改內容和保留內容的精細控制。視覺信息通過遮罩劃分爲“活性”和“非活性”區域,並嵌入共享特徵空間,與文本輸入結合。爲保證視頻幀間一致性,特徵映射到與擴散 Transformer 結構匹配的潛在空間,時間嵌入層確保模型理解序列的時間連貫性,注意力機制則關聯不同模態和時間步的特徵。
VACE 支持文本到視頻生成、基於參考的視頻合成、視頻到視頻編輯以及基於遮罩的目標編輯等四大核心任務,應用場景廣泛,包括人物移除、動畫角色生成、物體替換和背景擴展等。
模型訓練與評估
研究團隊首先專注於繪畫和塗鴉以支持文本到視頻,然後逐步加入參考圖像並轉向更高級的編輯任務。訓練數據來源於互聯網視頻,經過自動過濾、分割和深度、姿態註釋增強。爲了評估 VACE 的性能,研究人員創建了一個包含480個案例、涵蓋12個視頻編輯任務的基準。實驗結果表明,VACE 在定量指標和用戶研究方面均優於專門的開源模型,但在參考到視頻的生成方面仍與 Vidu 和 Kling 等商業模型存在差距。
阿里巴巴的研究人員認爲 VACE 是通往通用、多模態視頻模型的重要一步,未來將通過更大的數據集和更多算力進行擴展。該模型的部分代碼將在 GitHub 上開源。VACE 與阿里巴巴近期發佈的一系列大型語言模型(如 Qwen 系列)共同構成了其宏大的人工智能戰略佈局。包括字節跳動在內的其他中國科技巨頭也在積極發展視頻人工智能技術,部分成果已趕超西方同類產品。