長期以來,如何僅憑單張圖像高效生成高質量、廣闊視角的3D場景一直是研究人員面臨的挑戰。傳統方法往往依賴多視角數據,或需要耗時的逐場景優化,並且在背景質量和未見區域的重建上存在不足。現有技術在處理單視圖3D場景生成時,常因信息不足而導致遮擋區域的錯誤或扭曲,背景模糊,以及難以推斷未見區域的幾何結構。而基於迴歸的模型雖然可以前饋方式進行新視角合成,但它們在處理複雜場景時面臨巨大的內存和計算壓力,因此大多侷限於物體級別的生成或窄視角場景。

image.png

爲了克服這些限制,研究人員推出了一項名爲Wonderland的新技術。Wonderland能夠僅憑單張圖像,以前饋方式高效生成高質量、基於點雲的3D場景表示 (3DGS)。該技術利用視頻擴散模型中蘊含的豐富3D場景理解能力,並直接從視頻潛在空間構建3D表示,顯著降低了內存需求。3DGS通過前饋方式從視頻潛在空間迴歸,從而顯著加快了重建過程。Wonderland的關鍵創新點包括:

利用相機引導的視頻擴散模型的生成先驗知識:與圖像模型不同,視頻擴散模型在大量視頻數據集上進行訓練,捕獲了場景中跨多個視角的全面空間關係,並在其潛在空間中嵌入了一種“3D感知”形式,從而可以在新視角合成中保持3D一致性。

image.png

通過雙分支條件機制實現精確的相機運動控制:該機制有效地將期望的各種相機軌跡整合到視頻擴散模型中,使其能夠將單張圖像擴展爲具有精確姿態控制的3D場景的多視角一致捕捉。

直接將視頻潛在空間轉換爲3DGS以實現高效的3D重建:一種新型的基於潛在空間的大型重建模型(LaLRM)以前饋方式將視頻潛在空間提升到3D。與從圖像重建場景相比,視頻潛在空間提供了256倍的時空壓縮,同時保留了必要的、一致的3D結構細節。這種高度壓縮對於使LaLRM能夠在重建框架內處理更廣泛的3D場景至關重要。

image.png

Wonderland通過利用視頻擴散模型的生成能力,實現了高質量、廣闊視角和更多樣化場景的渲染,甚至可以處理超出對象級別重建的場景。其雙分支相機條件策略,使視頻擴散模型能夠以更精確的姿態控制生成3D一致的多視角場景捕捉。在零樣本新視角合成設置下,Wonderland使用單張圖像作爲輸入進行前饋3D場景重建,其性能在多個基準數據集(如RealEstate10K,DL3DV和Tanks-and-Temples)上均優於現有方法。

Wonderland的整體流程是:首先,給定一張單張圖像,一個相機引導的視頻擴散模型會根據相機軌跡生成一個具有3D感知能力的視頻潛在空間。然後,基於潛在空間的大型重建模型(LaLRM)以前饋方式利用該視頻潛在空間構建3D場景。視頻擴散模型採用雙分支相機條件機制來實現精確的姿態控制。LaLRM在潛在空間中運行,並高效重建廣闊且高保真的3D場景。

Wonderland的技術細節如下:

相機引導的視頻潛在空間生成:爲了實現精確的姿態控制,該技術使用像素級的Plücker嵌入豐富條件信息,並採用雙分支條件機制,將相機信息融入到視頻擴散模型中,以生成靜態場景。

基於潛在空間的大型重建模型(LaLRM):該模型將視頻潛在空間轉換爲3D高斯飛濺(3DGS),用於場景構建。LaLRM通過使用transformer架構迴歸高斯屬性,以像素對齊的方式進行大規模重建,與圖像級逐場景優化策略相比,大大降低了內存和時間成本。

漸進式訓練策略:爲了應對視頻潛在空間和高斯飛濺之間的巨大差異,Wonderland採用漸進式訓練策略,在數據源和圖像分辨率方面逐步提高模型性能。

研究人員通過廣泛的實驗驗證了Wonderland的有效性。在相機引導的視頻生成方面,Wonderland在視覺質量、相機引導精度和視覺相似度方面均優於現有技術。在3D場景生成方面,Wonderland在RealEstate10K、DL3DV和Tanks-and-Temples等基準數據集上的表現也明顯優於其他方法。此外,Wonderland在野外場景生成方面也展現了強大的能力。在延遲方面,Wonderland僅需5分鐘即可完成場景生成,遠超其他方法.

Wonderland通過在潛在空間中操作,並結合雙分支相機姿態引導,不僅提高了3D重建的效率,還保證了高質量的場景生成,爲單張圖像生成3D場景帶來了新的突破。

論文地址:https://arxiv.org/pdf/2412.12091