今日,阿里巴巴官方宣佈全面開源旗下視頻生成模型萬相2.1模型,14B和1.3B雙版本上線。其中,專業版14B,高性能,提供業界頂尖的表現力可滿足對視頻質量有極高要求的場景;而極速版1.3B,適合消費級顯卡,8.2GB顯存即可生成480P高質量視頻,適用於二次模型開發和學術研究。

據官方介紹,本次開源的 Wan2.1在處理複雜運動、還原真實物理規律、提升影視質感及優化指令遵循方面展現出顯著優勢,能夠滿足創作者、開發者和企業用戶的多樣化需求。藉助於通義萬相,用戶可以輕鬆實現高質量的視頻生成,尤其在廣告和短視頻領域,滿足了對創意的高要求。
在權威評測集 VBench 中,通義萬相以總分86.22% 高居榜首,遠超 Sora、Minimax、Luma 等國內外其他視頻生成模型。該評測基於主流的 DiT 和線性噪聲軌跡 Flow Matching 範式,通過一系列技術創新提升了模型的生成能力。特別是自研的高效3D 因果 VAE 模塊,成功實現256倍無損視頻隱空間壓縮,支持任意長度視頻的高效編碼與解碼。

通義萬相在生成視頻的過程中,採用了基於主流 DiT 結構的 Full Attention 機制,有效建模時空依賴性,確保生成視頻的高質量與一致性。模型的訓練策略採用6階段分步訓練法,從初步的低分辨率數據訓練逐步引入高分辨率數據,以保證模型在不同條件下的優異表現。此外,通義萬相在數據處理方面也採取了嚴格的清洗流程,以確保訓練數據的高質量。
在訓練與推理效率優化方面,通義萬相採用了多種先進技術,如分佈式訓練策略、激活值優化和顯存管理,確保模型訓練的穩定性與推理效率。通過與阿里雲訓練集羣的智能調度結合,模型在訓練過程中能夠自動識別故障並快速重啓,確保訓練過程的順利進行。
通義萬相2.1已在 GitHub、Hugging Face 等平臺開源,支持多種主流框架,爲開發者和研究者提供了便利的使用體驗。無論是快速原型開發還是高效生產部署,通義萬相都能滿足不同用戶的需求,爲視頻生成技術的發展注入了新的活力。

魔塔社區入口:https://modelscope.cn/organization/Wan-AI
劃重點:
🌟 通義萬相2.1開源,支持多樣化視頻生成需求。
🏆 在 VBench 評測中以86.22% 高分獲勝,領先其他模型。
🚀 採用分步訓練及多項技術優化,提升了生成效率和質量。
