阿里巴巴雲宣佈其備受期待的視頻生成AI模型Wan2.2即將在近期正式發佈。作爲Wan2.1的升級版本,Wan2.2預計在性能、效率和功能上實現重大突破,繼續秉承阿里開源AI的戰略,鞏固其在全球AI視頻生成領域的領先地位。繼Wan2.1於2025年2月開源並取得廣泛成功後,Wan2.2的推出引發了開發者社區和行業的熱烈討論。
Wan2.2:技術升級,性能再突破
Wan2.1憑藉其時空變分自編碼器(VAE)和擴散變換器(DiT)架構,已在VBench基準測試中以84.7%的得分超越OpenAI的Sora(84.28%)。據社交媒體討論,Wan2.2預計進一步優化這些技術,顯著提升視頻生成速度和質量,尤其是在高分辨率(如1080p)和長視頻生成中的表現。 預計新增功能包括:
- 文本到視頻(T2V):支持更高分辨率(如1080p和4K)以及更長的視頻生成,生成時間進一步縮短。
- 圖像到視頻(I2V):提升動態場景的流暢性和真實性,支持更復雜的動作和場景轉換。
- 視頻到音頻(V2A):增強從視頻內容生成匹配音頻的能力,提升多模態創作體驗。
- 多語言與風格擴展:支持更多語言的文本效果生成,並新增多樣化的藝術風格模板,如賽博朋克、寫實動畫等。
- 硬件優化:進一步降低硬件需求,T2V-1.3B模型預計在更低顯存(如6GB)設備上運行,擴大用戶覆蓋範圍。
Wan2.2的訓練數據預計在Wan2.1(15億視頻、100億圖像)的基礎上進一步擴充,優化數據篩選以提升生成內容的多樣性和真實性。
Wan2.2將繼續採用Apache2.0許可證,通過Alibaba Cloud ModelScope和Hugging Face免費提供代碼和模型權重,支持學術研究和商業應用。Wan2.1已推出T2V-1.3B、T2V-14B、I2V-14B-720P和I2V-14B-480P四種變體,Wan2.2預計將新增更多模型變體,針對不同硬件和場景進一步優化。
開發者對Wan2.2的開源前景充滿期待,認爲其將進一步挑戰OpenAI Sora等封閉模型的市場主導地位,推動AI視頻生成技術的民主化。阿里此舉不僅降低了技術門檻,也爲全球開發者提供了更多創新空間。