近日,智譜AI公司開源了全新的視頻生成模型CogVideoX-5B,它不僅在視頻生成的質量和視覺效果上超出了前代產品CogVideoX-2B,而且它的推理性能得到了大幅度的提升,使得早期的GTX1080Ti顯卡能夠運行上一代模型,而桌面端的"甜品級"顯卡,如RTX3060,更是可以輕鬆駕馭這款新模型。
CogVideoX-5B 與 CogVideoX-2B 詳細參數對比:

這個大規模的DiT(擴散變換器)模型,被設計用於執行文本到視頻的生成任務。其背後的技術包括3D因果變分自編碼器(3D causal VAE),該技術通過將視頻數據壓縮到潛在空間中,並在時間維度上進行解碼,以達到高效的視頻重建。
此外,專家變換器(Expert Transformer)的運用,將文本嵌入和視頻嵌入相結合,採用3D-RoPE作爲位置編碼,通過專家自適應層歸一化處理兩個模態的數據,並使用3D全注意力機制進行時空聯合建模。
代碼:https://top.aibase.com/tool/cogvideox
模型下載:https://huggingface.co/THUDM/CogVideoX-5b
論文鏈接:https://arxiv.org/pdf/2408.06072
