近日,字節跳動與南洋理工大學聯合研發的開源框架StoryMem在AI視頻生成領域引發廣泛關注。該框架通過創新的“視覺記憶”機制,將現有單鏡頭視頻擴散模型轉化爲多鏡頭長視頻故事講述者,能自動生成時長超過1分鐘、包含多個鏡頭切換、角色和場景高度連貫的敘事視頻,標誌着開源AI視頻技術向電影級敘事邁出關鍵一步。

StoryMem的核心創新:記憶機制驅動的逐鏡生成

StoryMem的核心在於引入人類記憶啓發的“Memory-to-Video(M2V)”設計。它維護一個緊湊的動態記憶庫,存儲先前生成鏡頭中的關鍵幀信息。首先使用文本到視頻(T2V)模塊生成首鏡頭作爲初始記憶,隨後每生成一個新鏡頭,都通過M2V LoRA將記憶關鍵幀注入擴散模型,確保角色外貌、場景風格和敘事邏輯跨鏡頭高度一致。

生成完成後,框架自動進行語義關鍵幀提取和美學篩選,進一步更新記憶庫。這種迭代式生成方式,避免了傳統長視頻模型常見的角色“變臉”、場景跳變問題,同時僅需輕量LoRA微調即可實現,無需海量長視頻數據訓練。

image.png

卓越一致性與電影級品質

實驗顯示,StoryMem在跨鏡頭一致性上顯著優於現有方法,提升幅度高達29%,並在人類主觀評測中獲得更高偏好。同時保留了基礎模型(如Wan2.2)的高畫質、提示遵循度和鏡頭控制能力,支持自然轉場和自定義故事生成。

框架還配套發佈了ST-Bench基準數據集,包含300個多樣化多鏡頭故事提示,用於標準化評估長視頻敘事質量。

應用場景廣泛:快速預覽與A/B測試利器

StoryMem特別適用於需要快速迭代視覺內容的領域:

- 營銷與廣告:從腳本快速生成動態分鏡,進行多種版本A/B測試

- 影視預製作:輔助劇組可視化故事板,降低前期概念成本

- 短視頻與獨立創作:輕鬆產出連貫敘事短片,提升內容專業度

社區快速響應:ComfyUI集成已現雛形

項目發佈後短短几天,社區已開始探索本地化部署,部分開發者在ComfyUI中實現初步工作流,支持本地運行生成長視頻,進一步降低了使用門檻。

AIbase觀點:長視頻一致性一直是AI生成領域的痛點,StoryMem以輕量高效的方式破解這一難題,極大推動了開源視頻模型向實用敘事工具演進。未來結合更多多模態能力,其在廣告、影視和內容創作中的潛力將進一步釋放。

項目地址:https://github.com/Kevin-thu/StoryMem