最近、智譜AI社は、新しい動画生成モデルCogVideoX-5Bをオープンソース化しました。これは、前世代のCogVideoX-2Bを上回る動画生成の質と視覚効果を実現しただけでなく、推論性能も大幅に向上しました。そのため、以前はGTX1080Tiなどの高性能グラフィックボードが必要だったのが、今ではRTX3060などのミドルレンジのグラフィックボードでも簡単に動作させることができます。

CogVideoX-5BとCogVideoX-2Bの詳細なパラメータ比較:

image.png

この大規模なDiT(拡散トランスフォーマー)モデルは、テキストから動画を生成するタスク向けに設計されています。その基盤技術には、3D因果変分オートエンコーダ(3D causal VAE)が含まれており、この技術は動画データを潜在空間に圧縮し、時間次元で復号することで、効率的な動画再構成を実現しています。

さらに、エキスパートトランスフォーマー(Expert Transformer)を使用することで、テキスト埋め込みと動画埋め込みを組み合わせ、3D-RoPEを位置エンコーディングとして採用し、エキスパート適応層正規化処理によって2つのモダリティのデータを処理し、3D全注意機構を用いて時空間の統合モデリングを行っています。

コード:https://top.aibase.com/tool/cogvideox

モデルダウンロード:https://huggingface.co/THUDM/CogVideoX-5b

論文リンク:https://arxiv.org/pdf/2408.06072