近日,南洋理工大學、北京大學王選計算機技術研究所與上海人工智能實驗室的研究人員聯合開源了名爲 “WORLDMEM” 的長記憶世界模型。這一新模型旨在解決當前虛擬環境中長期一致性的問題,尤其是在視角變化或時間推移的情況下,仍能維持3D 空間的連貫性,從而顯著提升用戶體驗。

image.png

WORLDMEM 的核心在於其創新的記憶機制。該機制構建了一個包含多個記憶單元的存儲庫,每個單元儲存了與特定時間相關的場景信息和狀態數據。通過這一機制,模型能夠有效地從之前觀察到的場景中提取信息,並在視角或時間變化時重新構建出精確的場景。這種方式突破了傳統方法對短時間上下文窗口的限制,使得長期保留環境細節成爲可能。

在生成新場景時,WORLDMEM 的記憶機制能夠從龐大的記憶庫中快速檢索與當前場景最相關的信息。該過程涉及複雜的推理和匹配,以確保所提取的信息與當前的時間、視角和場景狀態相契合。比如,當虛擬角色在環境中移動後返回原位置時,模型會迅速找到先前的記憶幀,確保場景的連貫性和一致性。

此外,WORLDMEM 具備動態更新的能力,隨着虛擬世界的發展,新的場景和信息會不斷被添加到記憶庫中。這一特性保證了模型對最新環境狀態的準確記錄,從而提升了場景生成的質量。該模型採用了基於條件擴散變換器的架構,能夠整合外部動作信號,實現虛擬世界的第一人稱視角生成,使得角色可以靈活地在虛擬環境中移動和互動。

WORLDMEM 還使用了擴散強迫技術進行訓練,使得模型能夠在時間維度上進行長期模擬。這一訓練方式確保了場景生成的連貫性,並使模型能夠有效應對不同的動作指令和場景變化。通過將動作信號投影到嵌入空間,並結合去噪時間步嵌入,模型提升了對動作信號的響應能力。

WORLDMEM 的發佈標誌着虛擬環境模擬技術的一次重要進步,爲未來的虛擬現實應用提供了強大的支持。

開源地址:https://github.com/xizaoqu/WorldMem

劃重點:

🌍 WORLDMEM 是一個開源的長記憶世界模型,旨在提升虛擬環境中的一致性和連貫性。  

🔍 模型的核心記憶機制能夠有效存儲和提取場景信息,突破了傳統方法的限制。  

🔄 WORLDMEM 具備動態更新能力,隨着環境的變化持續優化場景生成質量。