最近,斯坦福大學和麻省理工學院的研究人員共同開發了一種名爲 WonderWorld 的 AI 系統,它能夠從單張圖片實時生成3D 場景。這項新技術使用戶可以逐步構建和探索虛擬環境,輕鬆控制生成場景的內容和佈局。

WonderWorld 的最大挑戰在於實現快速的3D 場景生成。以往的方法通常需要幾分鐘到幾小時的時間來生成一個場景,而 WonderWorld 則能在僅僅10秒內在 Nvidia A6000GPU 上生成一個新的3D 環境。這種速度使得實時交互成爲可能,標誌着該領域的重大進步。

WonderWorld 的工作原理是,從輸入的圖片開始,生成一個初步的3D 場景。接着,系統進入一個循環,交替生成場景圖像和相應的 FLAGS 表示。用戶可以通過移動相機來控制新場景的生成,並使用文本輸入指定想要的場景類型。

image.png

值得一提的是,FLAGS 表示由三個層次組成:前景、背景和天空。每一層包含一組被稱爲 “surfels” 的元素,它們根據3D 位置、方向、比例、透明度和顏色來定義。這些 surfels 通過估計深度和法線圖進行初始化,然後經過優化以創建最終的場景。

爲了減少場景轉換時的幾何失真,WonderWorld 採用了一種引導深度擴散過程。這種方法使用預訓練的深度圖擴散模型,調整深度估計以匹配場景現有部分的幾何形狀。

實驗表明,WonderWorld 在速度和視覺質量方面明顯優於以前的3D 場景生成方法。在用戶研究中,生成的場景被認爲比其他方法生成的場景更具視覺說服力。

雖然 WonderWorld 在速度和視覺質量上顯著優於以往的方法,但它仍然有一些侷限性。比如,它只能創建前向表面,限制了用戶在虛擬世界中的移動角度在大約45度以內。此外,生成的世界目前看起來像是紙片剪影,而在處理像樹這樣的細節物體時,可能會出現 “洞” 或 “漂浮” 元素的現象。

儘管存在這些限制,研究人員仍然對 WonderWorld 的潛力充滿信心,尤其是在遊戲開發、虛擬現實和動態虛擬世界的創建方面。用戶在研究中評價生成的場景視覺效果更具說服力,顯示了這項技術的廣泛應用前景。

項目入口:https://kovenyu.com/wonderworld/

劃重點:

🌟 WonderWorld AI 能夠僅用一張照片實時生成3D 場景,速度快至10秒。

🎮 該系統支持用戶控制場景內容和佈局,適合遊戲開發和虛擬現實應用。

🚧 當前技術存在一定侷限,主要表現爲只能生成前向表面和細節處理不足。