單張圖片生成可行走 3D 世界！NVIDIA 開源 Lyra 2.0，徹底解決長視頻“空間遺忘”和“時間漂移”難題

NVIDIA Research 近日在 Hugging Face 平臺正式發佈Lyra2.0框架，這一開源項目標誌着 AI 生成式3D 世界構建技術邁向新高度。從單張輸入圖像出發，Lyra2.0能夠生成持久一致、可自由探索的大型3D 場景，支持實時渲染、機器人仿真和沉浸式應用。

AIbase編輯認爲，這一發布不僅提升了視頻生成模型的時空一致性，更爲物理 AI、遊戲開發和虛擬環境構建提供了實用資產管道。

核心挑戰與突破:告別空間遺忘與時間漂移

傳統長時程視頻生成模型在相機長距離移動時，常常出現“空間遺忘”（spatial forgetting）——模型無法記住先前生成區域的細節，導致場景不一致;同時還會產生“時間漂移”（temporal drifting）——物體位置、外觀隨時間逐漸偏移，嚴重影響後續3D 重建。

Lyra2.0針對這兩大痛點提出創新解決方案:

空間記憶機制:系統爲每一幀維護3D 幾何信息，但僅用於信息路由——檢索相關歷史幀並建立密集對應關係，而外觀合成仍依賴強大的生成先驗，避免幾何誤差積累。
自增強訓練策略:在訓練中讓模型接觸自身生成的退化輸出，教會它主動糾正漂移而非繼續傳播，從而實現更長的3D 一致視頻軌跡。

通過這一兩階段設計，Lyra2.0能夠從單張圖像和用戶定義的相機軌跡出發，迭代生成長序列視頻片段，並將其可靠地提升爲高質量3D 高斯濺射（3D Gaussian Splatting）或網格模型，支持實時渲染和進一步仿真。

使用流程:從圖片到可探索3D 世界

輸入一張圖像（可選搭配文本提示）;
通過交互式3D 瀏覽器定義相機移動軌跡;
模型自迴歸生成相機控制的長視頻片段;
將視頻序列提升爲顯式3D 表示（點雲、Gaussian 或網格），並反饋用於持續導航;
最終導出可直接用於 Unity、Unreal、Isaac Sim 等環境的資產。

實驗顯示，Lyra2.0在長視頻生成和3D 場景重建指標上超越了 GEN3C、CaM、Yume-1.5等多款現有方法，尤其在場景規模和一致性上表現出色。生成的場景可達數十米範圍，用戶能自由“走回去”、環顧四周，甚至投放機器人進行實時交互。

開源與應用價值:加速物理 AI 與虛擬世界開發

Lyra2.0的模型權重已在 Hugging Face（nvidia/Lyra-2.0）開放，代碼倉庫同步上線 GitHub(nv-tlabs/lyra)，採用 Apache2.0許可，支持商業使用。底層視頻骨幹基於 Wan-14B 等強大擴散模型，重建階段結合 Depth Anything V3等工具，確保輸出高質量且實用。

這一框架特別適用於:

embodied AI 與機器人訓練 :生成一致的仿真環境，直接導入 Isaac Sim;
遊戲與沉浸式內容:快速構建可探索的虛擬世界;
3D 資產生成管道:從概念圖到可編輯網格，一站式完成。

相比早期版本，Lyra2.0在場景持久性和可擴展性上實現顯著飛躍，爲“世界模型”從演示走向實用資產鋪平道路。

AIbase編輯點評:NVIDIA 此次開源不僅展示了生成式 AI 在時空建模上的技術突破，更體現了行業向開放生態的持續投入。隨着 Lyra2.0等工具的普及，開發者將能更高效地構建大規模、可交互的3D 世界，進而推動機器人、自動駕駛和元宇宙應用的加速落地。

項目頁面、論文及模型已全部公開，感興趣的開發者可立即前往 Hugging Face 和 GitHub 體驗。

論文地址:https://huggingface.co/papers/2604.13036

模型地址:https://huggingface.co/nvidia/Lyra-2.0

單張圖片生成可行走 3D 世界！NVIDIA 開源 Lyra 2.0，徹底解決長視頻“空間遺忘”和“時間漂移”難題

核心挑戰與突破:告別空間遺忘與時間漂移

使用流程:從圖片到可探索3D 世界

開源與應用價值:加速物理 AI 與虛擬世界開發

相關推薦

英偉達發佈 Lyra2.0:單照生成90米3D 環境，多項指標超越競爭對手

全新城市動態場景重建技術OmniRe，加入車輛、行人等動態對象

華爲 Sound X 5 官宣預售：AI 大模型賦能音頻新體驗

Moonshot AI攜手清華大學發佈PrfaaS架構，破解大模型算力瓶頸

影視颶風 Tim 因 AI 影像引發網友熱議：標註與不標註的不同反應