智譜AI推出了新一代視頻生成模型CogVideoX,標誌着公司在多模態技術發展上的又一重要進展。

微信截圖_20240726111755.png

CogVideoX的核心技術特點包括:

  1. 三維變分自編碼器結構(3D VAE):智譜AI自主研發的這一結構能將原始視頻數據壓縮至原始大小的2%,降低訓練成本和難度。結合3D RoPE位置編碼模塊,提升了時間維度上幀間關係的捕捉能力,建立視頻中的長期依賴關係。

  2. 端到端視頻理解模型:增強了模型對文本的理解和對指令的遵循能力,確保生成的視頻更符合用戶需求,能處理超長且複雜的prompt指令。

  3. 文本、時間、空間三維一體融合的transformer架構:創新性設計了Expert Block實現文本與視頻模態空間的對齊,並通過Full Attention機制優化模態間交互效果。

CogVideoX模型已在智譜清言的PC端、移動應用端及小程序端上線,用戶可通過「清影」(Ying)功能免費體驗AI文本生成視頻和圖像生成視頻的服務。清影的主要特點包括快速生成、高效的指令遵循能力、內容連貫性和畫面調度靈活性。

此外,智譜大模型開放平臺bigmodel.cn也部署了「清影」,企業和開發者可通過API調用方式使用其功能。智譜AI驗證了Scaling Law在視頻生成領域的有效性,並將持續擴大數據規模和模型規模,研究新型模型架構,以更高效地壓縮視頻信息,更全面地融合文本與視頻內容。

體驗地址:https://top.aibase.com/tool/qingying-ai-shipinshengchengfuwu