在計算機視覺領域,單圖像3D 重建技術以其從二維圖像中恢復三維物體形狀和結構的能力,成爲了一個備受關注的研究方向。近日,著名開源大模型平臺 Stability-AI 推出了一款名爲 SPAR3D 的創新模型,使得這一技術的實現速度達到了前所未有的0.7秒,爲行業帶來了巨大的變革。
單圖像3D 重建面臨着衆多挑戰,主要技術路線分爲基於迴歸的方法和生成式建模的方法。基於迴歸的方法在推斷可見表面時效率較高,但在處理遮擋區域時常常出現表面和紋理估計不準確的問題。而生成式方法則能夠更好地處理不確定性區域,但其計算成本高且生成結果與可見表面對齊較差。
SPAR3D 通過結合這兩種技術的優點,有效規避了各自的侷限性,顯著提升了重建的速度和準確性。
SPAR3D 的架構:高效的點採樣與網格化
SPAR3D 的架構由兩個主要階段組成:點採樣階段和網格化階段。
點採樣階段 :該階段的核心是點擴散模型,能夠根據輸入的二維圖像生成稀疏的點雲,包含 XYZ 座標和 RGB 顏色信息。採用 DDPM(Denoising Diffusion Probabilistic Models)框架,該模型通過添加高斯噪聲和去噪器的反向過程,學習如何從含噪點雲中恢復出噪聲。在推理過程中,使用 DDIM(Denoising Diffusion Implicit Models)採樣器生成點雲樣本,並通過分類器自由引導(CFG)提升採樣的保真度。
網格化階段 :該階段的目標是從輸入的圖像和點雲中生成帶有紋理的三維網格。SPAR3D 採用了大型三平面 Transformer,能夠從圖像和點雲中預測出三平面特徵,進而估計物體的幾何形狀、紋理和照明。訓練過程中,通過可微渲染器使用渲染損失來監督模型,確保生成結果的真實感和質量。
顯著性能:超越傳統方法
在 GSO 和 OmniObject3D 數據集的測試中,SPAR3D 在多個評估指標上均顯著優於傳統的迴歸和生成式基線方法。例如,在 GSO 數據集中,SPAR3D 的 CD(Chamfer Distance)值爲0.120,FS@0.1爲0.584,PSNR(Peak Signal-to-Noise Ratio)爲18.6,而其他方法的表現則相對較弱。在 OmniObject3D 數據集中,SPAR3D 同樣展現出優異的性能,CD 值爲0.122,FS@0.1爲0.587,PSNR 爲17.9。
這些結果充分證明了 SPAR3D 在幾何形狀和紋理質量方面的卓越表現,展現了其在實際應用中的潛力。
結語:開源技術的未來
隨着技術的不斷進步和應用場景的擴展,SPAR3D 無疑將在計算機視覺和3D 重建領域扮演重要角色。對於開發者和研究者而言,SPAR3D 的開源特性意味着更多的創新與應用機會。
開源地址:https://github.com/Stability-AI/stable-point-aware-3d
Huggingface:https://huggingface.co/stabilityai/stable-point-aware-3d