最近、智譜AI社は、新しい動画生成モデルCogVideoX-5Bをオープンソース化しました。これは、前世代のCogVideoX-2Bを上回る動画生成の質と視覚効果を実現しただけでなく、推論性能も大幅に向上しました。そのため、以前はGTX1080Tiなどの高性能グラフィックボードが必要だったのが、今ではRTX3060などのミドルレンジのグラフィックボードでも簡単に動作させることができます。
CogVideoX-5BとCogVideoX-2Bの詳細なパラメータ比較:
この大規模なDiT(拡散トランスフォーマー)モデルは、テキストから動画を生成するタスク向けに設計されています。その基盤技術には、3D因果変分オートエンコーダ(3D causal VAE)が含まれており、この技術は動画データを潜在空間に圧縮し、時間次元で復号することで、効率的な動画再構成を実現しています。
さらに、エキスパートトランスフォーマー(Expert Transformer)を使用することで、テキスト埋め込みと動画埋め込みを組み合わせ、3D-RoPEを位置エンコーディングとして採用し、エキスパート適応層正規化処理によって2つのモダリティのデータを処理し、3D全注意機構を用いて時空間の統合モデリングを行っています。
コード:https://top.aibase.com/tool/cogvideox