近日,人工智能公司 Rhymes AI 正式開源其先進的文本生成視頻模型 Allegro。Allegro 允許用戶將簡單的文字描述轉換爲高質量的短視頻片段,爲人工智能生成視頻領域的創作者、開發者和研究人員開闢了新的可能性。
Allegro 可以根據用戶提供的文字提示生成6秒、15幀/秒、分辨率爲720p 的高質量視頻,涵蓋了各種電影主題,從人物和動物的特寫到各種場景的動作,幾乎可以實現任何基於文本描述的場景。
Allegro 的核心技術包括大規模視頻數據處理、將原始視頻壓縮爲視覺token以及擴展視頻擴散Transformer。
大規模視頻數據處理方面,Rhymes AI 設計了系統的數據處理和過濾管道,從原始數據中提取訓練視頻,並開發了一個結構化數據系統,對數據進行多維分類和聚類,以便於模型訓練和微調。
壓縮視頻爲視覺token方面,Allegro 使用視頻變分自動編碼器(VideoVAE)將原始視頻壓縮成更小的視覺token,在保留必要細節的同時,實現更流暢、更高效的視頻生成。VideoVAE 建立在預先訓練的圖像 VAE 之上,並擴展了時空建模層,有效地利用空間壓縮能力。
擴展視頻擴散Transformer方面,Allegro 的核心是其擴展的擴散Transformer架構,它應用擴散模型生成高分辨率視頻幀,確保視頻運動的質量和流暢性。Allegro 的主幹網絡建立在 DiT(擴散Transformer)架構之上,具有3D RoPE 位置嵌入和3D 全注意力機制。與使用UNet架構的傳統擴散模型相比,Transformer 結構更有利於模型擴展。通過利用3D 注意力機制,DiT 可以同時處理視頻幀的空間維度及其時間演化,從而對運動和上下文有更細緻的理解。
Rhymes AI 表示,Allegro 只是開始,團隊正在積極開發更先進的功能,包括圖像到視頻的生成、運動控制以及對更長、基於敘事的、故事板風格視頻生成的支持。
爲了使人工智能驅動的視頻創作更容易被更廣泛的用戶所接受,Rhymes AI 將 Allegro 的模型權重和代碼全部開源,並鼓勵社區探索、釋放創造力,並在此基礎上進行構建,以期在人工智能生成視頻技術方面取得協作性進展。
項目地址:https://github.com/rhymes-ai/Allegro