近日,阿里巴巴在深夜推出了全新的開源視頻生成模型 Wan2.1,該模型憑藉14B 的參數量迅速佔據了 VBench 榜單的頂端,成爲目前視頻生成領域的佼佼者。與此之前發佈的 QwQ-Max 不同,Wan2.1在複雜運動的細節處理上表現出色,能夠流暢地實現多個人物的同步舞蹈,令人驚歎不已。

官方演示中,Wan2.1不僅成功克服了靜態圖像生成中的難題,如文字的處理更是達到了新的高度。對於普通用戶來說,雖然14B 的參數在個人消費級顯卡上部署較爲困難,但阿里還特別推出了一個1.3B 的小版本,支持480P 分辨率,使用12GB 顯存的4070顯卡即可流暢運行。

大腦 大模型

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

除了14B 和1.3B 版本,阿里還發布了兩個額外的視頻生成模型,均採用 Apache2.0協議,意味着用戶可以免費商用。在實際操作中,用戶可以通過阿里提供的平臺訪問這款模型,快速生成視頻,但由於用戶量激增,有時可能會出現等待時間過長的情況。對於有一定技術基礎的用戶,還可以通過 HuggingFace 和魔搭社區等多種途徑自行安裝和調試。

Wan2.1最大的亮點在於其技術創新。該模型採用了 Diffusion Transformer 架構,並使用3D 變分自動編碼器,專門爲視頻生成設計。通過引入多種壓縮和並行策略,該模型在保證質量的同時,大幅度提高了生成效率。研究表明,Wan 的重建速度是當前同類技術的2.5倍,大大節省了計算資源。

在用戶體驗方面,Wan2.1也獲得了衆多好評。無論是生成動態場景中的細節,還是自然的物理效果,模型的表現都讓人眼前一亮。用戶們通過該模型不僅能夠製作出高質量的視頻作品,還能輕鬆實現文字的動態呈現,爲創作帶來了更多可能。

阿里巴巴的 Wan2.1模型不僅技術先進,而且爲廣大創作者提供了更多的創作自由度,標誌着視頻生成技術的又一突破。