視頻生成速度慢、成本高,一直是AIGC領域的痛點。騰訊混元團隊這次給出了一個新的解法。

騰訊混元正式開源了全新視頻生成加速方案DisCa,代碼與模型權重均已公開可用。這項工作已被計算機視覺頂會CVPR2026收錄,也是學界和業界首次在蒸餾後少步模型上探索可學習特徵緩存加速技術的嘗試。

image.png

DisCa的核心思路,是在已經完成蒸餾、推理步數已經很少的模型上,進一步壓縮推理成本。傳統的特徵緩存方案在多步生成模型上效果不錯,但直接用在少步蒸餾模型上會產生過大的緩存誤差,導致生成結果崩壞。DisCa的解決方式是引入一個輕量級神經網絡預測器,通過對抗學習訓練,讓預測器學會根據緩存特徵更精準地預測後續特徵的演化軌跡,從而在保證生成質量的前提下,將加速邊界拓展至11.8倍。

image.png

另一個值得關注的方向是R-MeanFlow。來自MIT何愷明團隊的MeanFlow方案在圖像生成上表現亮眼,但騰訊混元團隊發現,將其直接用於更復雜的視頻生成任務時,"一步生成"的目標過於激進,反而會對模型訓練產生負面影響。他們的改進思路簡單直接:既然暫時不做一步生成,就把訓練中的激進場景剪掉,將步長範圍約束在合理區間內。這一結論與MIT和谷歌團隊的同期研究相互印證,相關成果已被用於當前最佳開源視頻生成模型HunyuanVideo-1.5的實際訓練中。

兩個方向加在一起,DisCa的意義不只是一篇論文,而是在工程落地層面給出了可復現的路徑。對於需要大規模部署視頻生成能力的團隊來說,這份開源方案值得認真研究。