魔搭ModelScope社區近日宣佈,其國產開源Sora視頻生成模型CogVideoX的更大尺寸版本——CogVideoX-5B已正式開源。
與之前的CogVideoX-2B相比,新模型在視頻生成的質量和視覺效果上都有顯著提升。

CogVideoX-5B是一個基於大規模DiT(diffusion transformer)模型,專爲文本到視頻生成任務設計。模型採用了3D因果變分自編碼器(3D causal VAE)和專家Transformer技術,通過結合文本和視頻嵌入,使用3D-RoPE作爲位置編碼,並利用3D全注意力機制進行時空聯合建模。
此外,模型還採用了漸進式訓練技術,能夠生成具有顯著運動特徵、連貫且長時間的高質量視頻。
模型鏈接:
https://modelscope.cn/models/ZhipuAI/CogVideoX-5b
