3D生成が物理的な欠点を補う!私たちがMidjourneyの美しくも絶妙な絵やSoraの映画級の動画に感嘆している間、より根本的な問題が静かに浮上しています。なぜこれらのAIが作成した3D世界はいつも「プラスチックのような」印象を与えるのでしょうか。
答えは簡単です。それらには物理的な魂がないからです。現実世界のあらゆる物は厳密な物理法則に従っており、椅子には重さと硬さがあり、ノートパソコンの画面は開閉可能です。素材は触り心地や放熱性能など重要な物理的特性を決定します。しかし、現在のAIによって生成された3Dモデルは外見がリアルかどうかだけを見ています。これらは非常に重要な物理的特性を完全に無視しています。この欠点は、物理シミュレーションやロボットの掴み、身体性知能などの本格的な応用場面ですぐに露呈します。
南洋理工大学と上海AIラボの科学者たちはこの核心的な問題に気づき、PhysX-3Dプロジェクトを発表しました。これは3D生成分野全体に破壊的な変革をもたらしています。このプロジェクトの目的は明確で壮大です。つまり、3D生成の「仮想の呪い」を打ち破り、AIが真正に「現実的」で物理的な魂を持つ3D世界を作り出すことです。
PhysX-3Dチームは3Dモデルの「魂の五つの質問」を提案し、この5つの主要な物理次元が真の3D世界の基盤を構成しています。最初は絶対的なサイズで、AIは生成される物体が1.8メートルのクローゼットなのか、18センチのフィギュアなのかを正確に判断しなければなりません。次に素材の属性で、システムは物体がガラス、金属、またはスポンジでできているのかを理解する必要があります。これにより、密度、硬さ、弾力などの物理的パラメータが決まります。
機能可能性の次元では、AIが物体の核心的な機能と最もよく接触する部分を理解する必要があります。例えば、椅子の主な機能は「座ること」なので、座面と背もたれが最も重要なインタラクティブな領域となります。運動学的特性は、物体の運動能力に関連しており、どの部品が動けるのか、どのように動くのか、運動範囲はどれくらいか、そして部品間の親子関係などを含みます。最後に機能説明では、AIが自然言語を使って物体の用途と機能を説明できる必要があります。
市場には包括的な物理的ラベリングデータセットが不足していたため、研究チームはエンジニアとしてのロマン主義精神を示しました。「教科書」がないなら、自分で作ればいいのです。その結果、PhysXNetが生まれました。これは世界初の5つの物理次元を体系的にラベリングした3Dデータセットであり、2万6千個以上の詳細にわたるラベリングされた3Dオブジェクトを含んでいます。拡張版であるPhysXNet-XLは、600万を超える物理的ラベリングを持った3Dモデルを含んでいます。
データセットの構築には巧みな「人機協働」ラベリングプロセスが採用されました。まず、GPT-4oなどのAIシステムによって初期の自動ラベリングが行われ、その後、人間の専門家による検証と修正が行われます。特に複雑な運動学的パラメータについては、接触領域の計算から平面のフィッティング、運動軸の生成に至るまで精密なプロセスが設計され、各パラメータが物理的に現実的であることを保証しています。
PhysXNetという厚い「教科書」があることで、次のステップはAIに物理的属性を持つ3Dモデルを生成させる方法を教えることになります。PhysXGen生成フレームワークは「接ぎ木」と「統合」の戦略を採用しています。既存の優れた幾何学生成モデルの上で、特定の物理的属性を理解し生成するための「物理的な脳」を追加しています。
PhysXGenの二枝構造設計は非常に精巧です。構造枝は予め訓練されたモデルの幾何学生成能力を引き継ぎ、高品質な形状とテクスチャの外観を作成します。これは物体の「皮膚」です。一方、物理枝は新たに追加されたモジュールで、5つの主要な物理的属性を学習し生成します。これは物体の「魂」です。この2つの枝は潜在空間の整列技術を通じて深く融合し、AIは徐々に幾何学的特徴と物理的特性の内的な関係を学びます。
実験結果はとても前向きです。PhysXGenは伝統的な「まず幾何学、次にGPT」の方法との全面的な比較で圧倒的な勝利を収めました。幾何学的な外観の質において、新しいシステムは予め訓練されたモデルの優位性を保持するだけでなく、さらに向上させています。物理的属性の予測精度において、PhysXGenはすべての5つの主要な次元でベースライン手法を全面的に上回り、素材と可用性の予測誤差はそれぞれ64%と72%減少しました。
定性的な比較はPhysXGenの優位性をより直感的に示しています。水栓のモデルでは、従来の方法は基本的な回転運動さえ間違えることがあります。一方、PhysXGenは正確な回転ジョイントと正しい親子部品の関係を生成できます。オフィスチェアの場合、新しいシステムはスポンジと生地の素材、および背もたれの回転運動特性を正確に予測できます。
PhysX-3Dプロジェクトの意味は技術そのもの以上にあります。それは3Dコンテンツ生成分野に新たな方向を示しています。つまり、「皮膚」のみに注目する幾何学モデリングから、「魂」と「皮膚」を備えた物理的接地モデリングへと移行することです。この変化はロボティクス、自律走行、バーチャルリアリティなどの多くの分野の発展に深く影響を与えるでしょう。
もちろん、「物理的AI」への道は依然として満ち足りていない挑戦があります。現実世界における物体のサイズの長尾分布、複雑な運動学的関係の正確な定義、仮想から現実への技術ギャップなどの問題はさらに解決する必要があります。しかし、PhysX-3Dはすでに物理的知能の世界へのドアを開けてくれました。
この技術がさらに成熟していくにつれて、将来のAIは単なる仮想世界の「空想家」ではなく、物理法則に沿った本当に現実的な3D世界を理解し創造することができるようになります。これはあらゆる応用分野で強力な「建設者」になるでしょう。この「プラスチック人形」から「物理的魂」への革命は、私たちがAIの創造力の境界を再定義する過程で進行しています。
論文のURL:https://arxiv.org/pdf/2507.12465