3D生成補上物理短板!當我們還在爲Midjourney的絕美畫作和Sora的電影級視頻驚歎時,一個更加根本性的問題正悄然浮現:爲什麼這些AI創造的3D世界總給人一種"塑料感"?

答案很簡單,它們缺乏物理靈魂。現實世界中的每一件物品都遵循着嚴格的物理定律,椅子有重量和硬度,筆記本電腦的屏幕能夠翻開,材質決定了手感和散熱性能。然而,現有的AI生成3D模型只關心外表是否逼真,完全忽略了這些至關重要的物理屬性。這種缺陷在物理仿真、機器人抓取或具身智能等硬核應用場景中立刻暴露無遺。

南洋理工大學和上海AI Lab的科學家們意識到了這個核心問題,他們推出的PhysX-3D項目正在爲整個3D生成領域帶來顛覆性變革。這個項目的目標明確而宏大:打破3D生成的"虛擬魔咒",讓AI創造出真正"接地氣"、擁有物理靈魂的3D世界。

image.png

PhysX-3D團隊提出了3D模型的"靈魂五問",這五個核心物理維度構成了真實3D世界的基礎架構。首先是絕對尺寸,AI必須準確判斷生成的物體究竟是一米八的衣櫃還是十八釐米的手辦。其次是材質屬性,系統需要理解物體是由玻璃、金屬還是海綿製成,這決定了密度、硬度、彈性等一系列物理參數。

功能可供性維度要求AI理解物體的核心功能和最常被接觸的部位,比如椅子的主要功能是"坐",因此坐墊和靠背就是最重要的交互區域。運動學特性則涉及物體的運動能力,包括哪些部件能動、如何運動、運動範圍多大以及部件間的父子關係。最後是功能描述,要求AI能夠用自然語言解釋物體的用途和功能。

面對市場上缺乏全面物理標註數據集的困境,研究團隊展現出了工程師的浪漫主義精神:既然沒有合適的"教科書",那就自己創造一個。PhysXNet應運而生,這是全球首個系統性標註了五大物理維度的3D數據集,包含超過2.6萬個精細標註的3D物體,擴展版PhysXNet-XL更是擁有超過600萬個物理標註的3D模型。

image.png

數據集的構建採用了巧妙的"人機協作"標註流水線。首先由視覺語言模型GPT-4o等AI系統進行初步自動化標註,隨後由人類專家進行審覈和精修。對於最複雜的運動學參數,團隊設計了從接觸區域計算到平面擬合,再到運動軸生成的精密流程,確保每個參數都具有物理真實性。

有了PhysXNet這本厚實的"教科書",下一步就是教會AI如何生成帶有物理屬性的3D模型。PhysXGen生成框架採用了"嫁接"與"融合"的策略,在已有的優秀幾何生成模型基礎上,添加一個專門理解和生成物理屬性的"物理大腦"。

PhysXGen的雙分支架構設計極爲精妙。結構分支繼承預訓練模型的幾何生成能力,負責創造高質量的形狀和紋理外觀,這是物體的"皮囊"。物理分支則是新增模塊,專門學習和生成對應的五大物理屬性,這是物體的"靈魂"。兩個分支通過潛空間對齊技術實現深度融合,AI逐漸學會幾何特徵與物理特性之間的內在關聯。

實驗結果令人振奮。PhysXGen在與傳統"先幾何後GPT"方法的全面對比中取得壓倒性勝利。在幾何外觀質量方面,新系統不僅保持了預訓練模型的優勢,甚至還有所提升。在物理屬性預測準確度上,PhysXGen在所有五個核心維度都全面超越基線方法,其中材質和可供性預測誤差分別降低了64%和72%。

定性對比更加直觀地展現了PhysXGen的優勢。對於水龍頭模型,傳統方法可能連基本的旋轉運動都會搞錯,而PhysXGen能夠準確生成旋轉關節和正確的父子部件關係。對於辦公椅,新系統能精確預測海綿和織物材質,以及靠背的旋轉運動特性。

PhysX-3D項目的意義遠超技術本身,它爲整個3D內容生成領域指明瞭全新方向:從單純關注"皮囊"的幾何建模,走向"靈魂"與"皮囊"兼備的物理接地建模。這種變革將深刻影響機器人學、自動駕駛、虛擬現實等衆多領域的發展。

當然,通往"物理AI"的道路依然充滿挑戰。現實世界中物體尺寸的長尾分佈、複雜運動學關係的精確定義、從虛擬到現實的技術鴻溝等問題都需要進一步攻克。但PhysX-3D已經爲我們打開了一扇通往物理智能世界的大門。

隨着這項技術的不斷成熟,未來的AI將不再只是虛擬世界的"空想家",而是能夠真正理解和創造符合物理規律的3D世界,成爲各個應用領域的強大"建造師"。這場從"塑料小人"到"物理靈魂"的革命,正在重新定義我們對AI創造力的認知邊界。

論文地址:https://arxiv.org/pdf/2507.12465