智譜AI宣佈開源「清影」同源視頻生成模型—

智譜AI宣佈將其視頻生成模型CogVideoX開源，旨在推動視頻生成技術的快速發展和應用。CogVideoX模型基於先進的大型模型技術，能夠滿足商業級應用的需求。目前開源的CogVideoX-2B版本在FP-16精度下的推理僅需18GB顯存，微調則需要40GB顯存，使得單張4090顯卡即可進行推理，而單張A6000顯卡即可完成微調。

CogVideoX模型採用了3D變分自編碼器（3D VAE）技術，通過三維卷積同時壓縮視頻的空間和時間維度，實現了更高的壓縮率和更好的重建質量。模型結構包括編碼器、解碼器和潛在空間正則化器，通過時間因果卷積確保了信息的因果性。此外，使用專家Transformer技術處理編碼後的視頻數據，結合文本輸入生成高質量的視頻內容。

微信截圖_20240806095428.png

爲了訓練CogVideoX模型，智譜AI開發了一套篩選高質量視頻數據的方法，排除了過度編輯、運動不連貫等問題視頻，確保了模型訓練的數據質量。同時，通過從圖像字幕生成視頻字幕的管道，解決了視頻數據缺乏文本描述的問題。

在性能評估方面，CogVideoX在多個指標上表現優異，包括人類動作、場景、動態程度等，以及專注於視頻動態特性的評估工具。智譜AI將繼續探索視頻生成領域的創新，包括新型模型架構、視頻信息壓縮和文本視頻內容融合等方面。

代碼倉庫:

https://github.com/THUDM/CogVideo

模型下載:

https://huggingface.co/THUDM/CogVideoX-2b

技術報告:

https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

智譜AI正式開源GLM-5. 2 模型：主打1M無損上下文與長程代碼任務

6月17日，智譜AI開源GLM-5.2大模型，聚焦代碼生成與長程任務。在Code Arena前端評估中，該模型全球可用排名第二、開源模型第一。智譜自2025年初攻關代碼基座，先後推出GLM-4.5/4.7，GLM-5.2進一步拓展至跨數天乃至數月的複雜工程執行。

智譜AI推AutoClaw iOS版：移動端Agent開啓“雙模式”進化

智譜AI近日推出AutoClaw（澳龍）iOS版，用戶可通過App Store下載。這是繼PC端上線後，兩個月內新增的移動端入口。APP支持與PC端賬號實時同步，用戶可在手機上創建、編輯、註銷Agent及管理羣聊，通過多智能體協作處理複雜任務。核心亮點是“雙模式”功能。

智譜AI宣佈開源「清影」同源視頻生成模型——CogVideoX

相關推薦

智譜AI落地1GW國產AI算力中心，並收購中科加禾強化AI Infra能力

智譜AI正式開源GLM-5. 2 模型：主打1M無損上下文與長程代碼任務

智譜擬募資150億元衝刺科創板距港股上市不足5個月

智譜AI推AutoClaw iOS版：移動端Agent開啓“雙模式”進化

智譜AI正式推出AutoClaw移動端APP，支持雲端雙模式執行

智譜AI宣佈開源「清影」同源視頻生成模型——CogVideoX

相關推薦

智譜AI落地1GW國產AI算力中心，並收購中科加禾強化AI Infra能力

智譜AI正式開源GLM-5. 2 模型：主打1M無損上下文與長程代碼任務

智譜擬募資150億元衝刺科創板 距港股上市不足5個月

智譜AI推AutoClaw iOS版：移動端Agent開啓“雙模式”進化

智譜AI正式推出AutoClaw移動端APP，支持雲端雙模式執行

智譜擬募資150億元衝刺科創板距港股上市不足5個月