字節跳動Seed團隊近日宣佈推出3D生成大模型Seed3D1.0,該模型能夠從單張圖像端到端地生成高質量仿真級3D模型,包括精細幾何、真實紋理和基於物理渲染(PBR)材質。這一創新成果有望爲具身智能的發展提供強大的世界模擬器支持,解決當前技術在物理交互能力和內容多樣性方面的瓶頸問題。

在研發過程中,Seed團隊收集並處理了大規模的高質量3D數據,構建了完整的三階段數據處理管線,將海量異構的原始3D數據轉化爲高質量訓練集。Seed3D1.0採用基於Diffusion Transformer架構的模型,通過端到端的技術路線,實現從單張圖像到仿真級3D模型的快速生成。該模型在幾何生成方面表現出色,能夠精確構建結構細節並保證物理完整性;在紋理貼圖生成上,通過多模態Diffusion Transformer架構,確保不同視角間的一致性;在PBR材質生成上,採用估計方法框架,提升了材質估計的準確性。

微信截圖_20251023142932.png

Seed3D1.0的生成能力在多項對比評估中展現出顯著優勢。在幾何生成方面,1.5B參數的Seed3D1.0超過了業界3B參數的模型,能夠更準確地還原複雜物體的精細特徵。在紋理材質生成方面,Seed3D1.0在參考圖像保持性方面表現優秀,特別是在精細文本生成和人物生成上優勢明顯。人工評測結果顯示,Seed3D1.0在幾何質量、材質紋理、視覺清晰度及細節豐富度等多個維度均獲得較好的評分。

Seed3D1.0不僅能夠生成單一物體的3D模型,還可通過分步生成策略構建完整的3D場景。生成的3D模型能夠無縫導入Isaac Sim等仿真引擎,僅需少量適配工作即可支持具身智能大模型訓練。這一能力爲機器人訓練提供了多樣化的操作場景,實現了交互式學習,併爲視覺-語言-行動模型構建了全面的評估基準。

儘管Seed3D1.0在三維模型和場景生成中展現了良好性能,但Seed團隊也意識到,要基於3D生成大模型搭建世界模型仍面臨生成精度、泛化性需進一步提升等挑戰。未來,團隊將嘗試引入多模態大語言模型(MLLM)來提升3D生成的質量和魯棒性,並推動3D生成模型在世界模擬器中的大規模應用。

項目主頁:

https://seed.bytedance.com/seed3d

體驗入口:

https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?modelId=doubao-seed3d-1-0-250928&tab=Gen3D