ByteDanceのSeedチームはこのたび、3D生成大規模モデル「Seed3D 1.0」をリリースしました。このモデルは単一の画像からエンド・トゥ・エンドで高品質なシミュレーションレベルの3Dモデルを生成でき、細かい幾何学的構造、現実的なテクスチャ、および物理ベースレンダリング(PBR)マテリアルを含みます。この革新的な成果は、身体知能の発展に強力な世界シミュレーターのサポートを提供し、現在の技術が抱える物理的相互作用能力やコンテンツの多様性に関するボトルネック問題を解決する可能性があります。
開発プロセスにおいて、Seedチームは大規模な高品質な3Dデータを収集・処理し、完全な3段階のデータ処理パイプラインを構築し、膨大で異種の元の3Dデータを高品質なトレーニングデータに変換しました。Seed3D 1.0はDiffusion Transformerアーキテクチャに基づくモデルであり、エンド・トゥ・エンドの技術ルートを通じて、単一の画像からシミュレーションレベルの3Dモデルを迅速に生成します。このモデルは幾何生成において優れた性能を発揮し、構造の詳細を正確に構築し、物理的な整合性を保証します。テクスチャマッピング生成においては、マルチモーダルDiffusion Transformerアーキテクチャにより、異なる視点間の一貫性を確保しています。PBRマテリアル生成では、推定方法フレームワークを採用し、マテリアル推定の正確性を向上させています。

Seed3D 1.0の生成能力は、複数の比較評価において顕著な優位性を示しています。幾何生成において、1.5BパラメータのSeed3D 1.0は業界の3Bパラメータのモデルを上回り、複雑な物体の微細な特徴をより正確に再現できます。テクスチャとマテリアル生成においては、参照画像の保持性において優れた性能を発揮しており、特に微細なテキスト生成や人物生成において優位性があります。人間による評価結果によると、Seed3D 1.0は幾何品質、マテリアルとテクスチャ、視覚的な明瞭度、および詳細の豊かさなどの多くの次元で高い評価を得ています。
Seed3D 1.0は単一の物体の3Dモデルだけでなく、ステップバイステップの生成戦略を使用して完全な3Dシーンを構築することもできます。生成された3DモデルはIsaac Simなどのシミュレーションエンジンにスムーズにインポートでき、わずかな適応作業で身体知能の大規模モデルトレーニングをサポートできます。この能力により、ロボットのトレーニングには多様な操作シーンが提供され、対話型学習が実現され、ビジュアル-言語-行動モデルのための包括的な評価基準が構築されます。
Seed3D 1.0は3Dモデルやシーン生成において良好な性能を示していますが、Seedチームは、3D生成大規模モデルを基盤として世界モデルを構築するには、生成精度や一般化能力のさらなる向上が必要であることを認識しています。今後、チームはマルチモーダル大規模言語モデル(MLLM)を導入し、3D生成の質と頑丈さを向上させ、3D生成モデルの世界シミュレーターにおける大規模な応用を推進する予定です。
プロジェクトページ:
https://seed.bytedance.com/seed3d
体験入口:
https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?modelId=doubao-seed3d-1-0-250928&tab=Gen3D
