最近、清华大学TSAIL研究室と生数科技は、ビデオ生成加速フレームワーク「TurboDiffusion」を正式にオープンソース化しました。この画期的な技術により、AIビデオ拡散モデルの推論速度が100〜200倍向上し、視覚的品質はほぼ損なわれず、AIビデオ制作がリアルタイム生成時代に入ったことを示しています。
驚異的な高速性能:分単位から秒単位への生成
TurboDiffusionは、現在のオープンソースビデオ生成モデル(Wan2.1およびWan2.2シリーズの1.3B〜14Bパラメータモデル)に対して深い最適化を行っています。RTX5090の1枚のGPUで、エンドツーエンドの生成速度はピークで200倍以上になります。例えば:
- 5秒の動画生成時間が184秒から1.9秒へと短縮(約97倍の高速化);
- 高解像度の720P動画において、14Bモデルでは数千秒から数十秒へと短縮されます。
また、コンシューマー向けのRTX4090でも大規模モデルをスムーズに動作させることができ、高価なA100やH100専用カードに依存する必要はありません。これにより、AIビデオ生成のハードウェアの門戸が大幅に低下し、多くの開発者やクリエイターが簡単に導入できるようになりました。

核心技術の解説:複数の最適化の組み合わせ
TurboDiffusionは新規モデルではなく、効率的な推論フレームワークであり、システム的な革新を通じてほぼ無損な高速化を実現しています。主な技術には以下があります:
- 8ビット量子化:SageAttentionを使用して低ビットの注目計算を行い、Tensor Coreによる高速化;
- 疎な線形注目(SLA):重要な注目接続のみを保持し、計算量をさらに削減;
- 時間ステップ蒸留(rCM):従来の数百ステップのサンプリングを3〜4ステップに圧縮し、スコア正則化連続時間整合性蒸留を組み合わせて品質の安定を確保。
これらの技術は直交的に結合されており、わずか6ステップのトレーニングプロセスで再現可能で、操作性を大きく向上させています。プロジェクトは完全にオープンソースであり、コード、予学習済みモデルの重み、および完全なトレーニングスクリプトが含まれており、GitHubで広く注目されています。
業界への影響:リアルタイムAIビデオの新時代を開く
TurboDiffusionのリリースは、業界内でのビデオ生成分野における「DeepSeekの瞬間」と見なされています。これは高解像度、長時間のビデオ生成における遅延とコストの問題を解決しただけでなく、MetaやOpenAIなどの国際チームにも注目されています。このフレームワークにより、AIビデオは実験段階から大規模な応用へと転換され、今後インタラクティブな創作や企業向けの大規模生産などに対応することが期待されています。
