最近,Skywork AI 的研究團隊推出了一種名爲 SkyReels-A2的全新視頻生成框架,標誌着可控視頻生成技術的新高度。這個名爲 “元素到視頻(E2V)” 的框架可以根據文本提示,將各種視覺元素(如角色、物體、背景)合成自然的視頻,並且能夠與參考圖像保持高度一致。
SkyReels-A2的核心在於其複雜的數據處理流程。研究團隊設計了一條全面的數據構建管道,以生成包含提示、參考圖像和視頻的三元組,從而爲模型訓練提供數據支持。其生成過程通過兩個分支進行:空間特徵分支和語義特徵分支。空間特徵分支利用細粒度的變分自編碼器(VAE)來處理每個組成元素,而語義特徵分支則利用 CLIP 視覺編碼器提取更深層次的語義信息。這種雙管齊下的策略確保了生成視頻既符合文本提示,又能夠保持各個元素之間的自然銜接。
除了保證視頻內容的多樣性與高質量,SkyReels-A2還優化了推理過程,以提高生成速度和輸出穩定性。這使得用戶可以更快地創建出專業水準的視頻內容。SkyReels-A2不僅是一款開放源代碼的商業級模型,它的出現也爲影視製作和虛擬電商等領域提供了巨大的創作潛力。
最後,研究團隊還推出了一套系統的評估基準 A2Bench,旨在全面評估生成視頻的質量。這一基準不僅考慮了自動評測指標,還包括用戶的主觀評價,從多個角度真實反映了 E2V 任務的效果。
SkyReels-A2無疑是一個改變遊戲規則的工具,期待它在創意應用領域的廣泛應用,助力內容創作者突破現有的技術瓶頸,實現更富想象力的創作。
項目地址:https://top.aibase.com/tool/skyreels-a2