階躍星辰は正式に3D大規模モデルのStep1X-3Dをリリースし、オープンソース化しました。このモデルの登場により、階躍星辰はマルチモーダル分野における最新の成果を示しています。画像、ビデオ、音声、音楽などのモードに続き、AI技術の適用範囲をさらに拡張しました。

Step1X-3Dモデルの総パラメータ数は4.8Bで、そのうち幾何モジュールが1.3B、テクスチャモジュールが3.5Bです。堅実なデータ基盤と先進的な3Dネイティブアーキテクチャにより、このモデルは高忠実度でコントロール可能な3Dコンテンツを生成できます。Step1X-3Dは単に視覚的に「美しい」だけでなく、「使いやすい」ことや「コントロール可能」であることに重点を置いており、3Dコンテンツ制作に強力で信頼できる技術エンジンを提供することを目指しています。

Step1X-3Dの核となる特徴は、3Dコンテンツ生成における主要な課題に対する解決策にあります。データ、生成品質、そしてコントロール性において革新的な取り組みを行っています。まず、データ駆動型アプローチとアルゴリズムの協調最適化がこのモデルの基礎となっています。Step1X-3Dは500万以上の原始データを厳選・処理し、200万件の高品質で標準化されたトレーニングサンプルライブラリを作成しました。これにより、業界内のデータ不足や質のばらつきの問題を効果的に克服しました。増強型メッシュ-SDF変換技術などにより、モデル学習の精度と最終的な生成効率を保証し、水密幾何変換の成功率を20%向上させ、Step1X-3Dの汎化能力と詳細捕獲力を強化しました。

微信截图_20250514161413.png

次に、Step1X-3Dは先進的な3Dネイティブ二段階アーキテクチャを採用しており、幾何表現とテクスチャ表現を解離しています。生成されるものは単なる視覚的な「外見」ではなく、構造的に信頼性があり、ダウンストリームアプリケーションに適応可能な「骨格」です。これにより幾何学的な歪みを回避し、生成の正確性、リアリズム、一貫性を保証します。幾何生成の核心は、3D特性に深く最適化された革新的なハイブリッドVAE-DiTアーキテクチャを採用していることで、TSDF内部表現の生成を担当し、生成される3Dモデルが構造的に完全で、破損や穴がないことを保証します。また、鋭いエッジサンプリングなどの技術を導入し、物体の豊かな幾何学的ディテールを正確にキャプチャして再現します。テクスチャ生成は強力なSD-XLモデルに基づいて深くカスタマイズ・最適化されており、幾何条件の正確な誘導や潜在空間でのマルチビュー同期技術を活用することで、幾何モジュールとの効率的な連携を実現し、生成されたテクスチャが色彩が豊かで質感がリアルかつ本物に近く、複雑な三次元表面にしっかりとフィットし、通常発生する歪みやつなぎ目の欠陥を効果的に防ぎます。

最後に、Step1X-3Dは3Dコンテンツ生成のコントロール性と使いやすさを大幅に向上させています。VAE-Diffusion全体のアーキテクチャは主流の2D生成モデル(Stable Diffusionなど)と高い互換性を持ち、成熟した2D制御技術(軽量LoRA微調整など)をスムーズに導入・適用することができます。そのため、ユーザーは生成される3Dアセットの対称性や表面の詳細(鋭さや滑らかさなど)といったさまざまな属性を直感的で細かい調整を行うことができます。これにより、創作がユーザーの意図に正確に合わせられるようになります。

Step1X-3Dの実際の効果を客観的に評価するために、階躍星辰は110件の多様なテストケースを持つ独自の総合テストを行い、Step1X-3Dを厳密な定量的および定性的評価を行い、多くの主流モデルとも全面的に比較しました。結果として、自動評価において、Step1X-3Dは複数の重要な指標で優れたパフォーマンスを示しました。特に、内容と入力セマンティックの一致性を測る主要指標であるCLIP-Scoreにおいて、Step1X-3Dは現在比較されているすべてのモデルの中で最高得点を達成し、オープンソースコミュニティに非常に競争力のある3D生成ソリューションを提供しました。

GitHub:

https://github.com/stepfun-ai/Step1X-3D

HuggingFace:

https://huggingface.co/stepfun-ai/Step1X-3D

ModelScope:

https://www.modelscope.cn/models/stepfun-ai/Step1X-3D