NVIDIA Research 近日在 Hugging Face 平臺正式發佈Lyra2.0框架,這一開源項目標誌着 AI 生成式3D 世界構建技術邁向新高度。從單張輸入圖像出發,Lyra2.0能夠生成持久一致、可自由探索的大型3D 場景,支持實時渲染、機器人仿真和沉浸式應用。
AIbase編輯認爲,這一發布不僅提升了視頻生成模型的時空一致性,更爲物理 AI、遊戲開發和虛擬環境構建提供了實用資產管道。

核心挑戰與突破:告別空間遺忘與時間漂移
傳統長時程視頻生成模型在相機長距離移動時,常常出現“空間遺忘”(spatial forgetting)——模型無法記住先前生成區域的細節,導致場景不一致;同時還會產生“時間漂移”(temporal drifting)——物體位置、外觀隨時間逐漸偏移,嚴重影響後續3D 重建。
Lyra2.0針對這兩大痛點提出創新解決方案:
- 空間記憶機制:系統爲每一幀維護3D 幾何信息,但僅用於信息路由——檢索相關歷史幀並建立密集對應關係,而外觀合成仍依賴強大的生成先驗,避免幾何誤差積累。
- 自增強訓練策略:在訓練中讓模型接觸自身生成的退化輸出,教會它主動糾正漂移而非繼續傳播,從而實現更長的3D 一致視頻軌跡。
通過這一兩階段設計,Lyra2.0能夠從單張圖像和用戶定義的相機軌跡出發,迭代生成長序列視頻片段,並將其可靠地提升爲高質量3D 高斯濺射(3D Gaussian Splatting)或網格模型,支持實時渲染和進一步仿真。
使用流程:從圖片到可探索3D 世界
- 輸入一張圖像(可選搭配文本提示);
- 通過交互式3D 瀏覽器定義相機移動軌跡;
- 模型自迴歸生成相機控制的長視頻片段;
- 將視頻序列提升爲顯式3D 表示(點雲、Gaussian 或網格),並反饋用於持續導航;
- 最終導出可直接用於 Unity、Unreal、Isaac Sim 等環境的資產。
實驗顯示,Lyra2.0在長視頻生成和3D 場景重建指標上超越了 GEN3C、CaM、Yume-1.5等多款現有方法,尤其在場景規模和一致性上表現出色。生成的場景可達數十米範圍,用戶能自由“走回去”、環顧四周,甚至投放機器人進行實時交互。
開源與應用價值:加速物理 AI 與虛擬世界開發
Lyra2.0的模型權重已在 Hugging Face(nvidia/Lyra-2.0)開放,代碼倉庫同步上線 GitHub(nv-tlabs/lyra),採用 Apache2.0許可,支持商業使用。底層視頻骨幹基於 Wan-14B 等強大擴散模型,重建階段結合 Depth Anything V3等工具,確保輸出高質量且實用。
這一框架特別適用於:
- embodied AI 與機器人訓練 :生成一致的仿真環境,直接導入 Isaac Sim;
- 遊戲與沉浸式內容:快速構建可探索的虛擬世界;
- 3D 資產生成管道:從概念圖到可編輯網格,一站式完成。
相比早期版本,Lyra2.0在場景持久性和可擴展性上實現顯著飛躍,爲“世界模型”從演示走向實用資產鋪平道路。
AIbase編輯點評:NVIDIA 此次開源不僅展示了生成式 AI 在時空建模上的技術突破,更體現了行業向開放生態的持續投入。隨着 Lyra2.0等工具的普及,開發者將能更高效地構建大規模、可交互的3D 世界,進而推動機器人、自動駕駛和元宇宙應用的加速落地。
項目頁面、論文及模型已全部公開,感興趣的開發者可立即前往 Hugging Face 和 GitHub 體驗。
論文地址:https://huggingface.co/papers/2604.13036
模型地址:https://huggingface.co/nvidia/Lyra-2.0
