最近、ビットテクノロジーは新しくInfinityStarフレームワークを発表しました。このフレームワークは動画生成効率を大幅に向上させ、720pの5秒間の動画をわずか58秒で生成できるようになりました。このイノベーションにより、生成速度が向上しただけでなく、統一されたアーキテクチャにより、画像生成やテキストから動画生成、動画の続き作成などの多様な視覚的生成タスクをサポートしています。

image.png

InfinityStarフレームワークの設計は、動画データの本質的な理解に基づいています。従来のモデルが動画を統一された3Dデータブロックとして扱うのとは異なり、InfinityStarは時空間ピラミッドモデルを採用し、空間スケールと時間次元を明示的に分離しています。この設計により、モデルは動画処理において外観情報と動的運動情報の効果的な分離が可能となり、生成品質が大幅に向上します。

image.png

さらに生成効率を高めるために、InfinityStarは知識継承戦略を導入しました。この戦略では、事前に訓練された変分自己符号化器(VAE)を基盤として使用します。この方法により、新しいモデルは高品質な動画特徴を迅速に学習でき、トレーニング時間と計算リソースの消費量を大幅に短縮できます。

実験結果によると、InfinityStarは動画生成において優れた視覚的品質を維持しながら、非常に高い生成速度を実現しています。このフレームワークの登場は、視覚的生成技術における重要な進歩を示しており、将来的な長時間動画生成や多様なタスク処理の基盤を築くものです。

github:https://github.com/FoundationVision/InfinityStar

ポイント:

- 🚀 InfinityStarフレームワークは、720p動画の生成時間を58秒に短縮し、効率を顕著に向上させています。

- 🏗️ 時空間ピラミッドモデルを採用し、外観情報と運動情報の効果的な分離を実現し、生成品質を向上させています。

- 📈 知識継承戦略を導入し、事前に訓練されたモデルを利用して学習を加速し、計算コストを削減しています。