AIbase報道 香港大學與快手可靈團隊近日聯合發表重磅論文《Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval》,提出革命性的"Context-as-Memory"方法,成功解決長視頻生成中場景一致性控制的核心難題。

創新理念:將歷史上下文作爲"記憶"載體

該研究的核心創新在於將歷史生成的上下文視爲"記憶",通過context learning技術學習上下文條件,實現長視頻前後場景的高度一致性控制。研究團隊發現,視頻生成模型能夠隱式學習視頻數據中的3D先驗,無需顯式3D建模輔助,這一理念與谷歌Genie3不謀而合。

技術突破:FOV記憶檢索機制大幅提升效率

爲解決歷史幀序列理論上可無限延長帶來的計算負擔,研究團隊提出基於相機軌跡視場(FOV)的記憶檢索機制。該機制能從全部歷史幀中智能篩選出與當前生成視頻高度相關的幀作爲記憶條件,顯著提升計算效率並降低訓練成本。

通過動態檢索策略,系統根據相機軌跡FOV重疊關係判斷預測幀與歷史幀的關聯度,大幅減少需要學習的上下文數量,實現模型訓練和推理效率的質的飛躍。

數據構建與應用場景

研究團隊基於Unreal Engine5收集了多樣化場景、帶有精確相機軌跡標註的長視頻數據集,爲技術驗證提供堅實基礎。用戶僅需提供一張初始圖像,即可沿設定相機軌跡自由探索生成的虛擬世界。

性能表現超越現有方法

實驗結果顯示,Context-as-Memory在幾十秒時間尺度下保持出色的靜態場景記憶力,並在不同場景中展現良好泛化性。與現有SOTA方法對比,該技術在長視頻生成場景記憶力方面實現顯著性能提升,且能在未見過的開放域場景中有效保持記憶連續性。

此次突破標誌着AI視頻生成技術向着更長時序、更高一致性的方向邁出重要一步,爲虛擬世界構建、影視製作等應用領域開闢新的可能性。