北京智譜華章科技有限公司宣佈,其旗下的CogVideoX系列模型推出了最新版本——CogVideoX v1.5,並已對外開源。自8月初發布以來,該系列模型憑藉其行業領先的技術和深受開發者喜愛的特性,已經成爲視頻生成領域的佼佼者。新版本CogVideoX v1.5在原有基礎上進行了顯著升級,包括增強了視頻生成能力,現在支持5/10秒、768P、16幀的視頻生成,並且I2V模型能夠支持任意尺寸比例,大幅提升了圖生視頻的質量和複雜語義理解。

微信截圖_20241108145545.png

此次開源的內容包括兩個模型:CogVideoX v1.5-5B和CogVideoX v1.5-5B-I2V。新版本也將同步上線到清影平臺,並與新推出的CogSound音效模型結合,提供質量提升、超高清分辨率支持、可變比例適應不同播放場景、多通道輸出以及帶聲效的AI視頻等特色服務。

在技術層面,CogVideoX v1.5通過自動化篩選框架過濾了缺乏動態連通性的視頻數據,並採用端到端的視頻理解模型CogVLM2-caption生成精準的視頻內容描述,提升了文本理解和指令遵循能力。此外,新版本採用了高效的三維變分自編碼器(3D VAE)解決內容連貫性問題,並自主研發了融合文本、時間和空間三維度的Transformer架構,取消了傳統的跨注意力模塊,通過專家自適應層歸一化技術優化了擴散模型中時間步信息的利用。

訓練方面,CogVideoX v1.5構建了一個高效的擴散模型訓練框架,通過多種並行計算和時間優化技術,實現了對長視頻序列的快速訓練。公司表示,他們已驗證了scaling law在視頻生成領域的有效性,並計劃在未來擴大數據量和模型規模,探索創新模型架構,以更高效地壓縮視頻信息,並更好地融合文本與視頻內容。

代碼:https://github.com/thudm/cogvideo

模型:https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT