智譜AI宣佈將其視頻生成模型CogVideoX開源,旨在推動視頻生成技術的快速發展和應用。CogVideoX模型基於先進的大型模型技術,能夠滿足商業級應用的需求。目前開源的CogVideoX-2B版本在FP-16精度下的推理僅需18GB顯存,微調則需要40GB顯存,使得單張4090顯卡即可進行推理,而單張A6000顯卡即可完成微調。

CogVideoX模型採用了3D變分自編碼器(3D VAE)技術,通過三維卷積同時壓縮視頻的空間和時間維度,實現了更高的壓縮率和更好的重建質量。模型結構包括編碼器、解碼器和潛在空間正則化器,通過時間因果卷積確保了信息的因果性。此外,使用專家Transformer技術處理編碼後的視頻數據,結合文本輸入生成高質量的視頻內容。

微信截圖_20240806095428.png

爲了訓練CogVideoX模型,智譜AI開發了一套篩選高質量視頻數據的方法,排除了過度編輯、運動不連貫等問題視頻,確保了模型訓練的數據質量。同時,通過從圖像字幕生成視頻字幕的管道,解決了視頻數據缺乏文本描述的問題。

在性能評估方面,CogVideoX在多個指標上表現優異,包括人類動作、場景、動態程度等,以及專注於視頻動態特性的評估工具。智譜AI將繼續探索視頻生成領域的創新,包括新型模型架構、視頻信息壓縮和文本視頻內容融合等方面。

代碼倉庫:

https://github.com/THUDM/CogVideo

模型下載:

https://huggingface.co/THUDM/CogVideoX-2b

技術報告:

https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf