Metaとカリフォルニア大学バークレー校の研究者たちは、StreamDiTを開発しました。これは、16フレーム/秒でリアルタイムに512p解像度の動画を作成できる画期的なAIモデルで、高級な1つのGPUで動作します。これまでの方法では、動画を完全に生成してから再生していたものですが、StreamDiTは1フレームずつリアルタイムで動画ストリームを生成できます。

StreamDiTモデルには40億個のパラメータがあり、驚くべき多機能性を示しています。このモデルは、1分間の動画を即座に生成し、インタラクティブなプロンプトに応答したり、既存の動画をリアルタイムで編集することも可能です。興味深いデモでは、動画内のブタを猫にリアルタイムで置き換えることに成功し、背景は変化しませんでした。

カスタムアーキテクチャによる優れた速度

このシステムの核心は、速度のために設計されたカスタムアーキテクチャです。StreamDiTは移動バッファリング技術を使用しており、複数のフレームを同時に処理し、前のフレームを出力しながら次のフレームを処理することができます。新規に生成されたフレームは最初はノイジーですが、徐々に最適化されて表示可能な状態になります。研究論文によると、このシステムは約半秒で2フレームを生成し、処理後には8枚の最終画像を生成できます。

StreamDiTはバッファを固定参照フレームと短いブロックに分割しています。ノイズ除去の過程において、画像の類似度が次第に低下し、それが最終的な動画フレームとなります。

多機能なトレーニングと高速化技術

モデルの汎用性を向上させるために、StreamDiTのトレーニングプロセスはさまざまな動画制作方法を含んでおり、3,000本の高品質な動画と260万本の動画を収録した大規模なデータセットを使用しました。トレーニングは128台のNvidia H100 GPUで行われ、研究者は1〜16フレームのブロックサイズを組み合わせて使用すると最も良い結果を得られることを発見しました。

リアルタイム性能を実現するために、チームは計算ステップを128ステップからわずか8ステップに大幅に削減する重要な高速化技術を導入しました。これにより、画像の品質への影響は最小限に抑えられています。StreamDiTのアーキテクチャも効率的に最適化されており、情報は局所的な領域間でのみ交換され、すべての画像要素が互いに相互作用するわけではありません。

現在の手法を上回る性能

直接比較テストでは、StreamDiTは運動が多い動画の処理において、ReuseDiffuseやFIFO拡散などの既存手法よりも優れています。他のモデルは静的なシーンを生成しがちですが、StreamDiTはよりダイナミックで自然な動きを生成できます。

人間の評価者は、StreamDiTが動きの滑らかさ、アニメーションの完全性、フレーム間の一貫性、および全体的な品質においてどの程度の性能を発揮しているかを評価しました。8秒間、512pの動画をテストした結果、StreamDiTはすべてのカテゴリでトップの結果を達成しました。

より大きなモデルの可能性と現在の制限

研究チームは、300億のパラメータを持つより大きなモデルにも挑戦しました。このモデルはより高い動画品質を提供していましたが、実時間での使用にはまだ速さが不十分でした。これは、StreamDiTの方法がより大きなシステムに拡張可能であることを示しており、将来的には高品質なリアルタイム動画生成の可能性を示唆しています。

しかし、StreamDiTにはいくつかの制限もあります。例えば、動画の前半部分に対する「記憶」能力が限られており、各部分の間で時折目立つ遷移が発生することがあります。研究者たちはこれらの課題を克服するための解決策を積極的に研究中です。

注目すべきは、他の企業もリアルタイムAI動画生成の分野を探求していることです。例えば、Odysseyは最近、ユーザーの入力に基づいて1フレームずつ動画を調整できる自己回帰的世界モデルをリリースしました。これにより、より使いやすいインタラクティブな体験が提供されます。

StreamDiTの登場は、AI動画生成技術における重要なマイルストーンであり、リアルタイムで対話型の動画コンテンツ制作の広がりを示しています。