智譜AI視頻生成模型CogVideoX v1.5開源支持5/10秒視頻生成

北京智譜華章科技有限公司宣佈，其旗下的CogVideoX系列模型推出了最新版本——CogVideoX v1.5，並已對外開源。自8月初發布以來，該系列模型憑藉其行業領先的技術和深受開發者喜愛的特性，已經成爲視頻生成領域的佼佼者。新版本CogVideoX v1.5在原有基礎上進行了顯著升級，包括增強了視頻生成能力，現在支持5/10秒、768P、16幀的視頻生成，並且I2V模型能夠支持任意尺寸比例，大幅提升了圖生視頻的質量和複雜語義理解。

微信截圖_20241108145545.png

此次開源的內容包括兩個模型:CogVideoX v1.5-5B和CogVideoX v1.5-5B-I2V。新版本也將同步上線到清影平臺，並與新推出的CogSound音效模型結合，提供質量提升、超高清分辨率支持、可變比例適應不同播放場景、多通道輸出以及帶聲效的AI視頻等特色服務。

在技術層面，CogVideoX v1.5通過自動化篩選框架過濾了缺乏動態連通性的視頻數據，並採用端到端的視頻理解模型CogVLM2-caption生成精準的視頻內容描述，提升了文本理解和指令遵循能力。此外，新版本採用了高效的三維變分自編碼器（3D VAE）解決內容連貫性問題，並自主研發了融合文本、時間和空間三維度的Transformer架構，取消了傳統的跨注意力模塊，通過專家自適應層歸一化技術優化了擴散模型中時間步信息的利用。

訓練方面，CogVideoX v1.5構建了一個高效的擴散模型訓練框架，通過多種並行計算和時間優化技術，實現了對長視頻序列的快速訓練。公司表示，他們已驗證了scaling law在視頻生成領域的有效性，並計劃在未來擴大數據量和模型規模，探索創新模型架構，以更高效地壓縮視頻信息，並更好地融合文本與視頻內容。

代碼:https://github.com/thudm/cogvideo

模型:https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT

國產“Sora”來了！智譜清影2.0一句話生成1080P視頻，還自帶AI音效

智譜AI推出清影2.0，基於自研CogVideoX模型，可直接生成1080P高清視頻，最長10秒。模型全面控制運動、鏡頭和風格，支持多視頻同時生成及鏡頭指定。實測畫質接近Sora，中文提示理解更準、生成更快。還集成CogSound音效模塊，實現文本到視頻的高效創作。

xAI升級Grok Imagine iOS版:新增視頻生成與提示重混

xAI即將爲iOS版Grok Imagine工具推出視頻生成功能，用戶可通過文本或圖像提示創建高清動態視頻，並支持從內容提要中直接重混提示以快速迭代創作。界面輕度優化提升操作流暢性，基於Aurora/Grok核心模型，支持一鍵高清升級，生成數秒短片，適用於廣告和創意內容。重混機制降低輸入門檻，簡化創作流程。

智譜AI視頻生成模型CogVideoX v1.5開源支持5/10秒視頻生成

相關推薦

生數科技與清華大學聯合推出 TurboDiffusion 視頻生成加速框架

智譜多模態開源周圓滿落幕：四項視頻生成核心技術全面開放

國產“Sora”來了！智譜清影2.0一句話生成1080P視頻，還自帶AI音效

騰訊元寶推出新功能：一句話或一張圖即可生成視頻！

xAI升級Grok Imagine iOS版:新增視頻生成與提示重混

智譜AI視頻生成模型CogVideoX v1.5開源 支持5/10秒視頻生成

相關推薦

​生數科技與清華大學聯合推出 TurboDiffusion 視頻生成加速框架

​智譜多模態開源周圓滿落幕：四項視頻生成核心技術全面開放

國產“Sora”來了！智譜清影2.0一句話生成1080P視頻，還自帶AI音效

騰訊元寶推出新功能：一句話或一張圖即可生成視頻！

​xAI升級Grok Imagine iOS版:新增視頻生成與提示重混

智譜AI視頻生成模型CogVideoX v1.5開源支持5/10秒視頻生成

生數科技與清華大學聯合推出 TurboDiffusion 視頻生成加速框架

智譜多模態開源周圓滿落幕：四項視頻生成核心技術全面開放

xAI升級Grok Imagine iOS版:新增視頻生成與提示重混