今日,智譜技術團隊發佈了其最新的視頻生成模型 CogVideoX v1.5,並將其開源。這一版本是自8月以來,智譜技術團隊推出的 CogVideoX 系列中的又一重要進展。

據瞭解,此次更新大幅提升了視頻生成能力,包括支持5秒和10秒的視頻長度、768P 的分辨率以及16幀的生成能力。同時,I2V(圖像到視頻)模型也支持任意尺寸比例,進一步增強了複雜語義的理解能力。
CogVideoX v1.5包含兩個主要模型:CogVideoX v1.5-5B 和 CogVideoX v1.5-5B-I2V,旨在爲開發者提供更強大的視頻生成工具。
更值得關注的是,CogVideoX v1.5將同步上線至清影平臺,並與新推出的 CogSound 音效模型結合,成爲 “新清影”。新清影將提供多項特色服務,包括視頻質量的顯著提升、美學表現和運動合理性,支持生成10秒、4K、60幀的超高清視頻。

官方介紹如下:
質量提升:在圖生視頻的質量、美學表現、運動合理性以及複雜提示詞語義理解方面能力顯著增強。
超高清分辨率:支持生成10s、4K、60幀超高清視頻。
可變比例:支持任意比例,從而適應不同的播放場景。
多通道輸出:同一指令/圖片可以一次性生成4個視頻。
帶聲效的 AI 視頻:新清影可以生成與畫面匹配的音效。
在數據處理方面,CogVideoX 團隊專注於提升數據質量,開發了自動化篩選框架以過濾不良視頻數據,並推出了端到端的視頻理解模型 CogVLM2-caption,以生成精準的內容描述。這一模型能夠有效處理複雜的指令,確保生成的視頻與用戶需求相符。
爲了提升內容連貫性,CogVideoX 採用了高效的三維變分自編碼器(3D VAE)技術,顯著降低了訓練成本與難度。此外,團隊還研發了融合文本、時間和空間三維度的 Transformer 架構,通過去除傳統的跨注意力模塊,增強了文本和視頻的交互效果,提升了視頻生成的質量。
未來,智譜技術團隊將繼續擴大數據量和模型規模,探索更高效的模型架構,以實現更優質的視頻生成體驗。CogVideoX v1.5的開源不僅爲開發者提供了強大的工具,也爲視頻創作領域注入了新的活力。
代碼:https://github.com/thudm/cogvideo
模型:https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT
劃重點:
🌟 新版 CogVideoX v1.5開源,支持5/10秒視頻、768P 分辨率和16幀生成能力。
🎨 新清影平臺上線,結合 CogSound 音效模型,提供超高清4K 視頻生成。
📈 數據處理與算法創新,確保生成視頻的質量和連貫性。
