近日,通義宣佈開源其最新的通義萬相大模型 Wan2.1。Wan2.1是一款專注於高質量視頻生成的 AI 模型,憑藉其在處理複雜運動、還原真實物理規律、提升影視質感以及優化指令遵循方面的卓越表現,成爲了創作者、開發者和企業用戶擁抱 AI 時代的首選工具。
在權威評測集 Vbench 中,通義萬相 Wan2.1以總分86.22% 的成績登頂榜首,大幅領先國內外其他知名視頻生成模型,如 Sora、Minimax、Luma、Gen3和 Pika 等。這一成就得益於 Wan2.1基於主流的 DiT 和線性噪聲軌跡 Flow Matching 範式,通過一系列技術創新實現了生成能力的重大進步。其中,自研高效的3D 因果 VAE 模塊實現了256倍無損視頻隱空間壓縮,並通過特徵緩存機制支持任意長度視頻的高效編解碼,同時減少了29% 的推理時內存佔用。此外,該模型在單個 A800GPU 環境下,視頻重建速度比現有最先進方法快2.5倍,展現出顯著的性能優勢。
Wan2.1的視頻 Diffusion Transformer 架構通過 Full Attention 機制有效建模長時程時空依賴,生成高質量且時空一致的視頻。其訓練策略採用6階段分步訓練法,從低分辨率圖像數據的預訓練逐步過渡到高分辨率視頻數據的訓練,並在最後通過高質量標註數據進行微調,確保模型在不同分辨率和複雜場景下的出色表現。在數據處理方面,Wan2.1設計了四步數據清洗流程,重點關注基礎維度、視覺質量和運動質量,以從嘈雜的初始數據集中篩選出高質量且多樣化的數據,促進有效訓練。
在模型訓練和推理效率優化方面,Wan2.1採用了多種策略。訓練階段,針對文本、視頻編碼模塊和 DiT 模塊,分別採用不同的分佈式策略,並通過高效的策略切換避免計算冗餘。顯存優化方面,採用分層的顯存優化策略,結合 PyTorch 顯存管理機制解決顯存碎片問題。推理階段,使用 FSDP 和2D CP 的組合方法進行多卡分佈式加速,並通過量化方法進一步提升性能。
目前,通義萬相 Wan2.1已在 GitHub、Hugging Face 和魔搭社區等平臺開源,支持多種主流框架。開發者和研究者可以通過 Gradio 快速體驗,或利用 xDiT 並行加速推理提升效率。同時,該模型正在加速接入 Diffusers 和 ComfyUI,以簡化一鍵推理與部署流程,降低開發門檻,爲用戶提供靈活的選擇,無論是快速原型開發還是高效生產部署,都能輕鬆實現。
Github:https://github.com/Wan-Video
HuggingFace:https://huggingface.co/Wan-AI
在線體驗:https://tongyi.aliyun.com/wanxiang