Rhymes AI近日發佈了其革命性文本-圖像到視頻生成模型Allegro-TI2V,這一突破性技術爲數字內容創作開闢了全新的疆界。作爲生成式AI的最新進展,Allegro-TI2V爲創意工作者提供了前所未有的視覺敘事工具,標誌着AI技術在創意領域的巨大潛力。
Allegro-TI2V在多個技術規格上表現卓越,支持高達79.2K的上下文長度,相當於88幀視頻。其輸出分辨率爲720×1280像素,視頻生成速度爲每秒15幀,用戶還可以選擇插值至30FPS,以滿足不同應用場景的需求。這款模型的架構非常複雜,包含了1.75億參數的VideoVAE和28億參數的VideoDiT模型,使其能夠精準捕捉用戶輸入的文本提示和初始圖像的本質。此外,Allegro-TI2V還支持多精度模式(FP32、BF16、FP16),在BF16模式下,生成視頻僅需9.3GB的GPU內存,極大降低了硬件需求。
Allegro-TI2V的創新之處在於其引入了兩種全新的生成模式:後續視頻生成:基於文本提示和初始幀,創建連續的視頻內容。這種模式能夠幫助創作者輕鬆生成符合設定主題和風格的視頻。中間視頻生成:在給定視頻的首尾幀的基礎上,生成自然過渡的中間幀,打破傳統視頻編輯的時間與空間限制。
這些創新模式使得Allegro-TI2V能夠爲創作者提供更高效、更靈活的視頻創作方式,大大提升了創作效率和質量。
Rhymes AI在Apache2.0許可下發布了Allegro-TI2V,使得研究人員、開發者和內容創作者能夠更容易地訪問和使用這一技術。用戶只需安裝Python3.10+、PyTorch2.4+和CUDA12.4+,便可輕鬆上手並快速體驗這一先進技術。
Allegro-TI2V的應用前景極爲廣泛,從電影製作、遊戲開發到數字藝術和創意原型,都能充分發揮其強大的生成能力。根據開發者提供的數據,單個H100GPU在約20分鐘內即可生成6秒的視頻,而使用8個H100GPU配置,生成時間將縮短至3分鐘,顯著提升了視頻內容創作的效率。
使用地址:https://huggingface.co/rhymes-ai/Allegro-TI2V
產品地址:https://rhymes.ai/blog-details/allegro-advanced-video-generation-model