通義萬相宣佈VACE開源,這標誌着視頻編輯領域迎來了一次重大的技術革新。此次開源的Wan2.1-VACE-1.3B支持480P分辨率,而Wan2.1-VACE-14B則支持480P和720P兩種分辨率。VACE的出現,爲用戶帶來了一站式的視頻創作體驗,用戶無需在不同模型或工具之間頻繁切換,即可完成文生視頻、圖像參考生成、局部編輯與視頻擴展等多種任務,極大地提高了創作效率和靈活性。

VACE的強大之處在於其可控重繪能力,它能夠基於人體姿態、運動光流、結構保持、空間運動、着色等控制生成,同時也支持基於主體和背景參考的視頻生成。這使得在視頻生成完成後,調整人物姿態、動作軌跡或場景佈局等操作變得不再困難。VACE背後的核心技術是其多模態輸入機制,它構建了一個集文本、圖像、視頻、Mask和控制信號於一體的統一輸入系統。對於圖像輸入,VACE可支持物體參考圖或視頻幀;對於視頻輸入,用戶可以通過抹除、局部擴展等操作,使用VACE重新生成;對於局部區域,用戶可以通過0/1二值信號來指定編輯區域;對於控制信號,VACE支持深度圖、光流、佈局、灰度、線稿和姿態等。

微信截圖_20250515081449.png

VACE不僅支持對視頻中指定區域進行內容替換、增加或刪除等操作,還能在時間維度上根據任意片段或首尾幀補全整個視頻時長,在空間維度上支持對畫面邊緣或背景區域進行擴展生成,如背景替換——在保留主體不變的前提下,依據Prompt更換背景環境。得益於強大的多模態輸入模塊和Wan2.1的生成能力,VACE能夠輕鬆駕馭傳統專家模型能實現的功能,包括圖像參考能力、視頻重繪能力、局部編輯能力等。此外,VACE還支持多種單任務能力的自由組合,打破了傳統專家模型各自爲戰的協作瓶頸。作爲統一模型,它能夠自然融合文生視頻、姿態控制、背景替換、局部編輯等原子能力,無需爲單一功能單獨訓練新模型。

VACE的靈活組合機制,不僅大幅簡化了創作流程,也極大地拓展了AI視頻生成的創意邊界。例如,組合圖片參考與主體重塑功能,可以實現視頻中物體的替換;組合運動控制與首幀參考功能,可以實現靜態圖片的姿態控制;組合圖片參考、首幀參考、背景擴展與時長延展功能,可以將豎版圖拓展爲橫屏視頻,並在其中加入參考圖片中的元素。通過對四類常見任務(文生視頻、圖生視頻、視頻生視頻、局部視頻生視頻)的輸入形態進行分析和總結,VACE提出了一個靈活統一的輸入範式——視頻條件單元VCU。VCU將多模態的各類上下文輸入總結成了文本、幀序列、mask序列三大形態,在輸入形式上統一了4類視頻生成與編輯任務。VCU的幀序列和Mask序列在數學上可以相互疊加,爲多任務的自由組合創造了條件。

在技術實現方面,VACE需要解決的一大難題是如何將多模態輸入統一編碼爲擴散Transformer可處理的token序列。VACE對VCU輸入中的Frame序列進行概念解耦,將其分爲需要原封不動保留的RGB像素(不變幀序列)和需要根據提示重新生成的內容(可變幀序列)。然後,分別對這三類輸入(可變幀、不變幀、Mask)進行隱空間編碼,其中可變幀和不變幀通過VAE被編碼到與DiT模型噪聲維度一致的空間,通道數爲16;而mask序列則通過變形和採樣操作,被映射到時空維度一致、通道數爲64的隱空間特徵。最後,將Frame序列和mask序列的隱空間特徵合一,並通過可訓練參數映射爲DiT的token序列。

在訓練策略上,VACE對比了全局微調與上下文適配器微調兩種方案。全局微調通過訓練全部DiT參數,能取得更快的推理速度;而上下文適配器微調方案是固定原始的基模型參數,僅選擇性地複製並訓練一些原始Transformer層作爲額外的適配器。實驗表明,兩者在驗證損失上差異不大,但上下文適配器微調具有更快的收斂速度,且避免了基礎能力丟失的風險。因此,本次開源版本採用了上下文適配器微調方法進行訓練。通過本次發佈的VACE系列模型定量評測可以看出,相比1.3Bpreview版本,模型在多個關鍵指標上均有明顯提升。

- GitHub:https://github.com/Wan-Video/Wan2.1

- 魔搭:https://modelscope.cn/organization/Wan-AI

- Hugging Face:https://huggingface.co/Wan-AI

- 國內站:https://tongyi.aliyun.com/wanxiang/

- 國際站:https://wan.video