阿里通義宣佈開源 Wan2.1系列模型,其中包括強大的首尾幀生視頻模型。這一模型採用了先進的 DiT 架構,在技術上實現了多項突破,顯著降低了高清視頻生成的運算成本,同時確保了生成視頻在時間與空間上的高度一致性。此次開源爲開發者和創作者提供了強大的工具,推動視頻生成技術的發展。
阿里通義發佈的 Wan2.1系列模型在多個方面進行了優化和創新。其中,高效的視頻壓縮 VAE 模型顯著降低了運算成本,使得高清視頻生成更加高效且經濟。模型的 Transformer 部分基於主流的視頻 DiT 結構,通過 Full Attention 機制精準捕捉長時程的時空依賴關係,確保了生成視頻在時間與空間上的高度一致性。此外,首尾幀生視頻模型引入了額外的條件控制分支,用戶輸入的首幀和尾幀作爲控制條件,通過這一分支實現了流暢且精準的首尾幀變換。
在訓練及推理優化方面,通義萬相首尾幀生視頻模型採用了基於線性噪聲軌跡的流匹配(Flow Matching)方法。在訓練階段,模型採用了數據並行(DP)與完全分片數據並行(FSDP)相結合的分佈式策略,支持分辨率爲720p、時長爲5秒的視頻切片訓練。在推理階段,模型採用了模型切分策略以及序列並行策略,顯著縮短了推理時間,同時實現了 FlashAttention3INT8與 FP8混合算子以對注意力機制部分進行8比特量化,確保推理效果無損。
模型的訓練分爲三個階段,逐步提升能力。第一階段使用與基模型相同的數據集,在480p 分辨率下進行圖生視頻、任意位置插幀、視頻續寫等任務的混合訓練。第二階段構建專門用於首尾幀模式的訓練數據,篩選出首尾幀差異較大的視頻片段,專注於優化首尾幀生成能力。第三階段採用高精度數據集,在720p 分辨率下完成最終訓練,確保生成視頻的細節復刻與動作流暢性達到最佳水平。
基於通義萬相首尾幀生視頻模型的強大能力,它不僅能完美復刻輸入圖像的細節,還能生成具有生動真實動作的視頻。目前,通義萬相首尾幀生視頻模型已同步在 GitHub 開源,歡迎廣大開發者與創作者試用並提出寶貴意見。開源地址如下:
- GitHub:https://github.com/Wan-Video/Wan2.1
- Hugging Face:https://huggingface.co/Wan-AI/Wan2.1-FLF2V-14B-720P
- Modelscope:https://www.modelscope.cn/models/Wan-AI/Wan2.1-FLF2V-14B-720P