近日,字節跳動與南洋理工大學的研究團隊聯合開發了一個新系統 StoryMem,旨在解決 AI 生成視頻時角色在不同場景中外觀不一致的問題。該系統通過在生成視頻的過程中存儲關鍵幀,並在後續場景生成時進行參考,從而保持角色和環境的一致性。

image.png

當前的 AI 視頻生成模型,如 Sora、Kling 和 Veo,雖然在短片段生成方面表現出色,但在將多個場景拼接成連貫故事時,仍然存在角色外觀變化、環境不一致等問題。以往的解決方案要麼需要大量計算資源,要麼會在拼接場景時失去一致性。

StoryMem 系統採用了一種新的方法。在生成視頻的過程中,它會將視覺上重要的幀存儲在內存中,並在生成新場景時進行參考。該系統的算法會智能選擇重要幀,以確保內存的管理效率,同時保留故事開頭的重要視覺信息。生成新場景時,這些存儲的幀將與當前正在創建的視頻一起輸入模型,確保生成的內容保持一致。

在實際訓練中,StoryMem 採用了低秩適應(LoRA)技術,以適應阿里巴巴開源模型 Wan2.2-I2V。研究團隊使用了40萬段每段五秒的視頻片段進行訓練,並通過視覺相似性對這些片段進行分組,從而使模型能夠生成風格一致的續集。

根據研究結果,StoryMem 在跨場景一致性上顯示了顯著的提升,相較於未修改的基礎模型提高了28.7% 的表現。此外,用戶調查顯示,參與者更傾向於選擇 StoryMem 生成的結果,認爲其在美觀性和一致性上均表現更佳。

然而,研究團隊也指出了該系統的一些侷限性,比如在包含多個角色的複雜場景中,可能會出現角色視覺特徵應用不當的情況。爲此,建議在每個提示中明確描述角色,以提高生成效果。

項目:https://kevin-thu.github.io/StoryMem/

劃重點:  

🌟 StoryMem 系統能夠有效解決 AI 視頻生成中角色和環境不一致的問題。  

📊 通過存儲關鍵幀,StoryMem 在跨場景一致性方面比現有模型提升了28.7%。  

🛠️ 該系統在處理複雜場景時仍面臨挑戰,需對角色進行明確描述以提升生成效果。