質量更高、視覺效果更好！智譜開源CogVideoX-5B視頻生成模型

魔搭ModelScope社區近日宣佈，其國產開源Sora視頻生成模型CogVideoX的更大尺寸版本——CogVideoX-5B已正式開源。

與之前的CogVideoX-2B相比，新模型在視頻生成的質量和視覺效果上都有顯著提升。

微信截圖_20240828081448.png

CogVideoX-5B是一個基於大規模DiT（diffusion transformer）模型，專爲文本到視頻生成任務設計。模型採用了3D因果變分自編碼器(3D causal VAE)和專家Transformer技術，通過結合文本和視頻嵌入，使用3D-RoPE作爲位置編碼，並利用3D全注意力機制進行時空聯合建模。

此外，模型還採用了漸進式訓練技術，能夠生成具有顯著運動特徵、連貫且長時間的高質量視頻。

模型鏈接:

https://modelscope.cn/models/ZhipuAI/CogVideoX-5b

國產“Sora”來了！智譜清影2.0一句話生成1080P視頻，還自帶AI音效

智譜AI推出清影2.0，基於自研CogVideoX模型，可直接生成1080P高清視頻，最長10秒。模型全面控制運動、鏡頭和風格，支持多視頻同時生成及鏡頭指定。實測畫質接近Sora，中文提示理解更準、生成更快。還集成CogSound音效模塊，實現文本到視頻的高效創作。

Bilibili開源動漫視頻生成模型AniSora V3版，一鍵生成多種風格動漫視頻鏡頭

Bilibili（B站）宣佈其開源動漫視頻生成模型AniSora迎來重大更新，正式發佈AniSora V3。作爲Index-AniSora項目的一部分，V3版本在原有基礎上進一步優化了生成質量、動作流暢度和風格多樣性，爲動漫、漫畫及VTuber內容創作者提供了更強大的工具。AIbase深入解讀AniSora V3的技術突破、應用場景及行業影響。技術升級:更高質量與精準控制AniSora V3基於Bilibili此前開源的CogVideoX-5B和Wan2.1-14B模型，結合強化學習與人類反饋（RLHF）框架，顯著提升了生成視頻的視覺質量和動作一致性。其支持一鍵

智譜AI開源最新版視頻模型CogVideoX v1.5，上線10秒4K"新清影"

今日，智譜技術團隊發佈了其最新的視頻生成模型 CogVideoX v1.5，並將其開源。這一版本是自8月以來，智譜技術團隊推出的 CogVideoX 系列中的又一重要進展。據瞭解，此次更新大幅提升了視頻生成能力，包括支持5秒和10秒的視頻長度、768P 的分辨率以及16幀的生成能力。同時，I2V（圖像到視頻）模型也支持任意尺寸比例，進一步增強了複雜語義的理解能力。CogVideoX v1.5包含兩個主要模型:CogVideoX v1.5-5B 和 CogVideoX v1.5-5B-I2V，旨在爲開發者提供更強大的視頻生成工具。更值得關注的是，CogVideoX v1.5將

智譜AI視頻生成模型CogVideoX v1.5開源支持5/10秒視頻生成

北京智譜華章科技有限公司宣佈，其旗下的CogVideoX系列模型推出了最新版本——CogVideoX v1.5，並已對外開源。自8月初發布以來，該系列模型憑藉其行業領先的技術和深受開發者喜愛的特性，已經成爲視頻生成領域的佼佼者。新版本CogVideoX v1.5在原有基礎上進行了顯著升級，包括增強了視頻生成能力，現在支持5/10秒、768P、16幀的視頻生成，並且I2V模型能夠支持任意尺寸比例，大幅提升了圖生視頻的質量和複雜語義理解。

智譜發佈新一代基座模型GLM-4-Plus 清言APP升級視頻通話功能

北京智譜華章科技有限公司在2024年8月29日宣佈了一系列重要的技術更新，包括新一代基座模型的發佈和新的應用服務。在KDD2024大會上，智譜發佈了包括語言模型GLM-4-Plus、文生圖模型CogView-3-Plus、圖像/視頻理解模型GLM-4V-Plus和視頻生成模型CogVideoX在內的新一代基座模型。這些模型在各自領域均達到了國際領先水平。