上海科技大學的科學家們最近開發了一款名爲CLAY的人工智能模型,這款模型可以從文字描述或二維圖像中生成詳細的3D物體。與以往的技術相比,CLAY在生成3D物體的質量和多樣性方面都取得了顯著突破。
CLAY模型的核心包括一個多分辨率變分自編碼器(VAE)和一個擴散變換器(DiT)。VAE負責將不同細節層次的3D幾何形狀編碼到潛在空間中,而DiT則負責生成這些幾何形狀。與許多其他系統不同的是,CLAY能夠直接處理3D內容,無需先轉換爲2D圖像。
CLAY的訓練數據超過了50萬種3D模型,涵蓋了從簡單的日常物品到複雜的幻想生物的各種對象。此外,CLAY還具備通過額外輸入進行控制的能力,用戶可以通過指定粗略形狀(如體素結構、點雲)或邊界框來實現對生成結果的精確控制。這種靈活性使得CLAY可以生成整個城市場景,甚至從手繪草圖中重建詳細的3D模型。
在與其他系統(如Shap-E、DreamFusion、Wonder3D)進行比較時,CLAY表現出了明顯的優勢。無論是文字轉3D還是圖像轉3D,CLAY都能夠生成更一致的幾何形狀,表面更加光滑,細節更加精細。CLAY生成高質量3D資產的速度也十分驚人,僅需約45秒,而一些比較系統可能需要幾小時來優化。
CLAY的潛在應用非常廣泛,包括遊戲開發、電影製作和3D打印等領域。儘管如此,研究人員也意識到AI生成虛擬內容的潛在風險,因此他們計劃增加更多的安全措施,以確保負責任的使用。
未來,研究人員還計劃進一步擴展訓練數據,提高模型質量,並將幾何生成和材料合成整合到一個單一模型中,以實現更全面的功能。可以通過3D-Gen 服務 Rodin 訪問 CLAY 的一個版本。
產品入口:https://hyperhuman.deemos.com/rodin
### 劃重點:
- 🏆 **CLAY在3D生成技術上的突破**:CLAY能從文字和圖像中生成詳細的3D物體,生成質量和速度均優於以往技術。
- ⚡ **生成速度驚人**:CLAY生成高質量的3D資產僅需約45秒,比其他系統快得多。
- 🎮 **廣泛應用前景**:CLAY有潛力在遊戲開發、電影製作和3D打印等多個領域發揮重要作用。