最近,一項黑科技直接顛覆了我們對3D 世界構建的認知!普林斯頓大學、哥倫比亞大學和一家叫 Cyberever AI 的公司,聯手推出了一套名叫3DTown 的框架。聽名字就知道,它就是來幫你搞3D 城鎮的!最騷的是什麼?它能僅僅憑藉一張俯視圖,就能幫你生成一個逼真、連貫的3D 城鎮場景!  而且,它還是個免訓練(training-free)的框架,這意味着你不用費勁巴拉地去收集海量3D 數據來訓練它,直接就能用! 

image.png

論文地址:https://arxiv.org/pdf/2505.15765

項目地址:https://eric-ai-lab.github.io/3dtown.github.io/

傳統3D 建模?那是上個時代的“體力活兒”!

你是不是覺得,搞一個高質量的3D 場景,那是大公司、大團隊才能玩得起的“燒錢遊戲”?確實是這樣:

設備貴到哭:動輒幾十萬、上百萬的3D 掃描設備,不是一般人能碰的。 

數據多到爆炸:需要多視角、多角度的數據採集,不然模型會有很多“盲區”。 

人工建模累成狗:耗時耗力,一個細節點能讓建模師摳到頭禿。 

所以,大部分人只能望3D 而興嘆。雖然最近幾年 AI 在3D 對象生成上取得了很大進展,但要延伸到整個複雜場景的生成,那簡直是“步履維艱”,經常出現各種“翻車”現場:

幾何結構不一致:生成出來的建築歪七扭八,不像個整體。 

佈局憑空捏造:跟輸入的圖片完全對不上,想象力過於豐富。 

網格質量差:模型細節粗糙,材質貼圖也一言難盡。 

image.png

3DTown:“一張圖,造座城”的魔法師!

現在,3DTown 就是來解決這些痛點的!它的核心理念,就是讓你用最少的輸入(一張俯視圖),生成最棒的3D 場景。  想象一下,你隨便在網上找一張雪鎮的俯視圖,或者自己隨手畫一個荷蘭風格小鎮的草圖,扔給3DTown,它就能給你變出一個個逼真的3D 模型! 

那它是怎麼做到這種“魔法”的呢?答案藏在它的兩大“黑科技”裏:

區域生成:化整爲零,逐個擊破!

你有沒有想過,一個複雜的3D 場景,如果直接讓 AI 一口氣生成,那難度可想而知。3DTown 很聰明,它採用了**“化整爲零”的策略**。  它會把輸入的俯視圖分解成 overlapping(重疊)的區域,然後對每個區域進行單獨的3D 生成。  這就像把一張巨大的拼圖,先拆分成一個個小拼圖,然後讓 AI 集中精力去拼好每一小塊。這樣做的好處是顯而易見的:

提升分辨率和細節:每個區域都是獨立的,AI 可以集中火力生成高分辨率的幾何結構和紋理,細節更豐富。 

改善圖像到3D 的對齊:因爲是針對局部區域生成,AI 對圖像細節的理解更精確,生成出的3D 模型也更符合圖片中的樣子。 

空間感知3D 修復:讓“碎片”完美拼接!

“化整爲零”雖然好,但又帶來了新問題:這些獨立生成的區域,怎麼才能完美地拼接成一個連貫、沒有縫隙的整體呢?  這就是3DTown 的第二個“黑科技”——空間感知3D 修復(spatial-aware3D inpainting)! 

它首先會根據輸入的圖片,估算出粗略的3D 結構,這就像給 AI 畫了個“草稿圖”,告訴它哪裏是建築、哪裏是道路。 

然後,它會利用蒙版矯正流(masked rectified flow)修復過程,去填充那些缺失的幾何結構,同時保持整體結構的連續性。  想象一下,這就像一個專業的“3D 瓦工”,在 AI 拼好每塊“積木”後,它能自動幫你把積木之間的縫隙填補得天衣無縫,而且還保持整體結構不走樣! 

無需訓練,效果“打臉”同行!

最讓人拍案叫絕的是,3DTown 是一個**“免訓練”的框架**!  它直接利用了預訓練好的3D 對象生成器(比如 Trellis),然後通過它獨特的區域生成和空間修復策略,來合成複雜的3D 場景。  這就好比一個頂級廚師,他不需要自己種菜養豬,而是直接從市場上買來上好的食材,然後用他精湛的廚藝,做出米其林星級的菜餚!

實驗結果也證明了3DTown 的強大實力,它在多項指標上全面碾壓了目前最先進的 Image-to-3D 生成模型:

幾何質量:人類評分和 GPT-4o 評分都顯示,3DTown 生成的3D 模型幾何結構更精細、更接近真實!  它的幾何質量得分比 Trellis 高出37個百分點,比 TripoSG 高出55個百分點! 

佈局連貫性:生成出來的場景佈局跟輸入的圖片完美對齊,沒有“跑偏”的現象。  在佈局連貫性上,3DTown 的人類偏好得分比 Trellis 高出40個百分點,在 GPT-4o 評估中更是達到87.9%,而 Hunyuan3D-2只有12.1%! 

紋理保真度:模型表面的紋理逼真、一致,就像真實世界一樣。 

你看,無論是雪鎮、沙漠小鎮,還是荷蘭風格小鎮,3DTown 都能完美駕馭,生成出高度連貫且逼真的3D 場景!  其他模型則經常出現結構過於簡化、佈局扭曲、或者物體重複的毛病。 

3DTown 的“成功祕訣”:拆解與縫合的藝術!

這項技術的成功,再次證明了**“空間分解”和“先驗引導修復”**這兩種策略在將2D 圖像提升爲高質量3D 場景中的重要性。 

區域分解讓 AI 可以在每個局部區域發揮其預訓練的優勢,避免了處理整個複雜場景時的“力不從心”。 

地標引導則像給 AI 提供了“定海神針”,確保了場景的整體結構和關鍵物體的連續性,防止“跑偏”。 

這項技術對遊戲開發、電影製作、元宇宙構建、甚至是機器人仿真訓練等領域都有着巨大的潛力。想象一下,未來我們只需要一張草圖,就能快速生成一個可以探索的3D 世界,那效率得提升多少倍啊!

最後,小小的“碎碎念”和未來的展望

當然,任何新技術都不是完美的。3DTown 目前也有一些小限制,比如:

它所依賴的預訓練3D 生成器是基於單個物體訓練的,所以在某些區域生成時,可能會出現一些“幻覺”,比如重複的立面或不真實的屋頂形狀。 

它對初始粗略3D 結構的估計,有時候會有“漏洞”,導致生成出的表面空洞或過於平滑。 

但這些都是未來可以優化的方向,比如結合多視角數據、引入語義先驗、或者進行場景級別的微調等。 

3DTown 的出現,無疑是3D 內容生成領域的一個里程碑!它以一種巧妙、高效且無需訓練的方式,爲我們打開了從2D 到3D 快速構建複雜場景的大門。未來,或許我們每個人都能成爲3D 世界的“創世神”,只需一張圖,就能打造出自己心中的“理想之城”!