階躍星辰正式發佈並開源了3D大模型Step1X-3D。這一模型的推出,標誌着階躍星辰在多模態方向上的最新成果,繼圖像、視頻、語音、音樂等模態後,進一步拓展了AI技術的應用邊界。
Step1X-3D模型總參數量達4.8B,其中幾何模塊1.3B,紋理模塊3.5B。憑藉堅實的數據基礎與先進的3D原生架構,該模型能夠生成高保真、可控的3D內容。Step1X-3D不僅追求視覺上的“好看”,更注重“好用”與“可控”,旨在爲3D內容創作提供強大而可靠的技術引擎。
Step1X-3D的核心特性在於其對3D內容生成的關鍵挑戰的解決。在數據、生成質量與可控性上進行了創新實踐。首先,數據驅動與算法協同優化是該模型的基礎。Step1X-3D對超過500萬原始數據進行嚴格篩選與處理,建立了包含200萬高質量、標準化的訓練樣本庫,有效克服了行業數據稀缺與質量參差的瓶頸。通過增強型網格-SDF轉換技術等方法,從源頭保障了模型學習的精準性與最終生成的高效性,讓水密幾何轉換成功率提升了20%,也讓Step1X-3D擁有了強大的泛化能力與細節捕捉力。

其次,Step1X-3D採用先進的3D原生兩階段架構,解耦幾何與紋理表徵,確保生成的不僅是視覺“皮囊”,更是結構可靠、可供下游應用的“骨架”,有效規避幾何失真,保證生成的準確性、真實感與一致性。幾何生成的核心在於採用爲3D特性深度優化的創新混合VAE-DiT架構,負責生成TSDF內部表示,確保產出的3D模型結構完整、無破面漏點。同時,通過引入銳利邊緣採樣等技術,精準捕捉並還原物體的豐富幾何細節。紋理生成則基於強大的SD-XL模型進行深度定製與優化,通過幾何條件的精準引導,以及潛在空間多視圖同步技術,實現了與幾何模塊的高效協同,確保生成的紋理不僅色彩飽滿、質感生動逼真,更能跨越多視圖保持高度一致,與複雜三維表面精密貼合,有效避免常見的扭曲與接縫瑕疵。
最後,Step1X-3D顯著提升了3D內容生成的可控性與易用性。VAE-Diffusion整體架構在設計上與主流2D生成模型(如Stable Diffusion)保持了高度一致性,從而能夠無縫引入並應用成熟的2D控制技術,如輕量化的LoRA微調。因此,用戶可以對生成3D資產的對稱性、表面細節(如鋒利度、平滑度)等多種屬性進行直觀、精細的調控,讓創作更精準地符合用戶意圖。
爲了客觀評估Step1X-3D的實際效果,階躍星辰通過一個自建的綜合測試(包含110個多樣化測試用例),對Step1X-3D進行了嚴格的定量與定性評估,同時與多款主流模型進行全面對比。結果顯示,在自動評估中,Step1X-3D在多項關鍵維度上均表現出色。特別是在衡量內容與輸入語義一致性的核心指標CLIP-Score上,Step1X-3D取得了當前所有對比模型中的最高分,爲開源社區提供了極具競爭力的3D生成方案。
GitHub:
https://github.com/stepfun-ai/Step1X-3D
HuggingFace:
https://huggingface.co/stepfun-ai/Step1X-3D
ModelScope:
https://www.modelscope.cn/models/stepfun-ai/Step1X-3D
