針對 AI 視頻生成領域長期存在的“角色走樣”與“環境閃爍”難題,字節跳動與南洋理工大學研究團隊近期聯合推出名爲 StoryMem 的創新系統。該系統通過引入一種類似人類記憶的機制,成功實現了長視頻跨場景創作的高度一致性,解決了 Sora、Kling 等模型在多鏡頭敘事時容易出現的視覺偏差痛點。

StoryMem 的核心邏輯在於其獨特的“混合記憶庫”設計。研究人員指出,將所有場景強行塞入單個模型會導致計算成本激增,而分段生成又會丟失關聯。爲此,StoryMem 選擇性地存儲先前場景的關鍵幀作爲參考。該算法利用雙重過濾器,先通過語義分析挑選視覺核心幀,再通過質量檢測剔除模糊圖像。在生成新場景時,這些關鍵幀會配合一種名爲 RoPE(旋轉位置嵌入)的技術輸入模型。通過賦予記憶幀“負時間索引”,系統能引導 AI 將其識別爲“過去的事件”,從而確保角色形象和背景細節在故事推進中保持穩定。

值得關注的是,StoryMem 的實現方式極爲高效。它基於阿里巴巴開源模型 Wan2.2-I2V 的 LoRa 版本運行,在擁有140億參數的基礎模型上僅增加了約7億參數,顯著降低了訓練門檻。在包含300條場景說明的 ST-Bench 基準測試中,StoryMem 的跨場景一致性較基礎模型提升了28.7%,在美學得分與用戶偏好上也全面超越了 HoloCine 等現有前沿技術。
此外,該系統還展現了極高的實用價值,支持用戶上傳自定義照片作爲“記憶起點”來生成連貫故事,並能實現更平滑的場景過渡。儘管在處理多角色併發及大幅度動作銜接上仍有侷限,但團隊已在 Hugging Face 開放了權重數據,並上線了項目頁面供開發者探索。
地址:https://kevin-thu.github.io/StoryMem/
https://huggingface.co/Kevin-thu/StoryMem
