智譜AI開源最新版視頻模型CogVideoX v1.5，上線10秒4K"新清影"

今日，智譜技術團隊發佈了其最新的視頻生成模型 CogVideoX v1.5，並將其開源。這一版本是自8月以來，智譜技術團隊推出的 CogVideoX 系列中的又一重要進展。

據瞭解，此次更新大幅提升了視頻生成能力，包括支持5秒和10秒的視頻長度、768P 的分辨率以及16幀的生成能力。同時，I2V（圖像到視頻）模型也支持任意尺寸比例，進一步增強了複雜語義的理解能力。

CogVideoX v1.5包含兩個主要模型:CogVideoX v1.5-5B 和 CogVideoX v1.5-5B-I2V，旨在爲開發者提供更強大的視頻生成工具。

更值得關注的是，CogVideoX v1.5將同步上線至清影平臺，並與新推出的 CogSound 音效模型結合，成爲 “新清影”。新清影將提供多項特色服務，包括視頻質量的顯著提升、美學表現和運動合理性，支持生成10秒、4K、60幀的超高清視頻。

官方介紹如下:

質量提升:在圖生視頻的質量、美學表現、運動合理性以及複雜提示詞語義理解方面能力顯著增強。
超高清分辨率:支持生成10s、4K、60幀超高清視頻。
可變比例:支持任意比例，從而適應不同的播放場景。
多通道輸出:同一指令/圖片可以一次性生成4個視頻。
帶聲效的 AI 視頻:新清影可以生成與畫面匹配的音效。

在數據處理方面，CogVideoX 團隊專注於提升數據質量，開發了自動化篩選框架以過濾不良視頻數據，並推出了端到端的視頻理解模型 CogVLM2-caption，以生成精準的內容描述。這一模型能夠有效處理複雜的指令，確保生成的視頻與用戶需求相符。

爲了提升內容連貫性，CogVideoX 採用了高效的三維變分自編碼器（3D VAE）技術，顯著降低了訓練成本與難度。此外，團隊還研發了融合文本、時間和空間三維度的 Transformer 架構，通過去除傳統的跨注意力模塊，增強了文本和視頻的交互效果，提升了視頻生成的質量。

未來，智譜技術團隊將繼續擴大數據量和模型規模，探索更高效的模型架構，以實現更優質的視頻生成體驗。CogVideoX v1.5的開源不僅爲開發者提供了強大的工具，也爲視頻創作領域注入了新的活力。

代碼:https://github.com/thudm/cogvideo

模型:https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT

劃重點:
🌟 新版 CogVideoX v1.5開源，支持5/10秒視頻、768P 分辨率和16幀生成能力。
🎨 新清影平臺上線，結合 CogSound 音效模型，提供超高清4K 視頻生成。
📈 數據處理與算法創新，確保生成視頻的質量和連貫性。

智譜AI開源最新版視頻模型CogVideoX v1.5，上線10秒4K"新清影"

相關推薦

Hailuo2.3AI視頻生成模型上線Replicate平臺，帶來逼真物理與電影級特效

美團推出 LongCat-Video 視頻生成模型，原生支持5分鐘級連貫輸出

OpenAI視頻生成模型Sora 2上線微軟Azure平臺：定價每秒0.1美元，進入公共預覽階段

OpenAI 推出 Sora2 API:顛覆視頻生成的新工具

xAI 推出視頻生成模型 Imagine v0.9，邁入“電影級一鍵生成”時代