ビデオ生成の速度が遅く、コストが高いことは、AIGC分野における長年の課題でした。テンセント・フェンユアンチームは今回、新たな解決策を提示しました。

テンセント・フェンユアンは、新しいビデオ生成加速手法「DisCa」を正式にオープンソース化しました。コードとモデルの重みも公開されています。この研究は、コンピュータビジョンのトップ会議CVPR2026に採択され、学界と業界で初めて蒸留後の少ないステップモデルにおいて、学習可能な特徴キャッシュによる加速技術を試みたものです。

image.png

DisCaのコア的な考え方は、すでに蒸留が完了し、推論ステップ数が非常に少ないモデル上で、さらに推論コストを圧縮することです。従来の特徴キャッシュ方式は、複数ステップ生成モデルでは効果的ですが、少ないステップの蒸留モデルに直接適用すると、キャッシュ誤差が大きくなり、生成結果が崩れることがあります。DisCaの解決策は、軽量なニューラルネットワーク予測器を導入し、敵対学習により、予測器がキャッシュされた特徴に基づいて後続の特徴の進化をより正確に予測できるようにするものです。これにより、生成品質を保ちながら、加速境界を11.8倍まで拡大することが可能になります。

image.png

もう一つ注目すべき方向は「R-MeanFlow」です。マサチューセッツ工科大学(MIT)の何恺明チームが開発した「MeanFlow」は画像生成において優れた性能を示していますが、テンセント・フェンユアンチームはこれをより複雑なビデオ生成タスクに直接適用した場合、「一歩で生成」の目標が過度に野心的であり、モデルの訓練に悪影響を与える可能性があることを発見しました。彼らの改善アイデアは単純かつ直接的です:一歩で生成を目指さないなら、訓練中の過激なシナリオを削除し、ステップ数の範囲を合理的な区間に制限すればよいのです。この結論は、MITとグーグルチームの同時期の研究と一致しており、関連成果は現在最高のオープンソースビデオ生成モデルであるHunyuanVideo-1.5の実際の訓練に実際に応用されています。

この二つの方向性を合わせることで、DisCaの意味は単なる論文を超え、エンジニアリングの実装面での再現可能な道筋を提示しています。ビデオ生成能力を大規模に展開するチームにとっては、このオープンソース案は真剣に検討すべきものです。