近日,字節跳動宣佈推出全新 InfinityStar 框架,該框架顯著提升了視頻生成效率,將生成5秒720p 視頻的時間縮短至僅58秒。這一創新不僅提高了生成速度,還通過統一的架構支持多種視覺生成任務,包括圖像生成、文本生成視頻、視頻續寫等功能。

image.png

InfinityStar 框架的設計基於對視頻數據本質的深入理解。與傳統模型將視頻視爲一個統一的3D 數據塊不同,InfinityStar 採用了一種時空金字塔模型,顯式地將空間尺度與時間維度分開。這一設計使得模型在處理視頻時,能夠更有效地解耦外觀信息與動態運動信息,極大地提高了生成質量。

image.png

爲了進一步提高生成效率,InfinityStar 引入了知識繼承策略,利用一個經過預訓練的變分自編碼器(VAE)作爲基礎。通過這種方式,新模型能夠快速學習到高質量的視頻特徵,大大縮短了訓練時間和計算資源消耗。

實驗表明,InfinityStar 在生成視頻時,保持了優良的視覺質量,同時實現了超高的生成速度。該框架的推出,標誌着視覺生成技術的一次重要進步,也爲未來的長視頻生成和多樣化任務處理奠定了基礎。

github:https://github.com/FoundationVision/InfinityStar

劃重點:

- 🚀 InfinityStar 框架將720p 視頻生成時間縮短至58秒,顯著提高效率。

- 🏗️ 採用時空金字塔模型,實現外觀與運動信息的有效解耦,提高生成質量。

- 📈 引入知識繼承策略,利用預訓練模型加速學習,降低計算成本。