アップルの機械学習チームは、南京市の南京大学および香港科技大学と協力し、少量の2D写真から現実的な物体やシーンを再構築する高度なAIモデル「Matrix3D」を発表しました。このモデルの主な機能は、ユーザーに高品質な3D出力を提供することです。

image.png

ユーザーがわずか3枚の写真を提供するだけで、Matrix3Dは詳細な3D再構築結果を自動的に生成できます。このプロセスは従来の3Dモデリングの手順を簡素化し、さまざまなアプリケーション分野に新たな可能性をもたらし、AI技術のさらなる発展を促進しています。

従来の3Dモデリングでは、一般的に多角的な測定を行うため複数の写真を使用します。しかし、現在のプロセスは複数の独立したモデル(姿勢推定や深さ予測など)に依存しており、分散したアプローチにより効率が低下したり誤差が発生したりすることがあります。Matrix3Dはそのような伝統的な手法を一新し、画像、カメラパラメータ(視点や焦点距離)、深層データなどを統合し、これら情報を処理するための単一のアーキテクチャを採用しています。これにより中間工程を削減し、再構築プロセスをよりスムーズで信頼性のあるものにしています。研究者によると、このような統合設計は人的エラーのリスクを大幅に低減し、全体的なパフォーマンスを向上させます。

訓練方法において、Matrix3DはTransformerベースの初期AIシステムからのインスピレーションを受け、マスク学習戦略を使用しています。この技術は部分的な入力をランダムに隠すことで、モデルが「空白を埋める」方法を学ばせ、その適応力を強化します。データセットが小さかったり不完全だったりしても、Matrix3Dは重要な特徴を効果的に学習することができます。

テストの結果、Matrix3Dのパフォーマンスは非常に優れています。ユーザーがわずか3枚の写真を入力するだけで、物体や環境全体の精巧な3D再構築結果が生成されます。これは没入型技術の応用に実質的な可能性を提供します。たとえば、Apple Vision Proなどのヘッドマウントディスプレイでは、Matrix3Dが現実感あふれる仮想シーンを作成し、ユーザーエクスペリエンスを向上させることができます。研究者たちは、このような能力がメタバースや拡張現実のさらなる発展を促進すると考えています。

公式情報: https://machinelearning.apple.com/research/large-photogrammetry-model

要点:

🌟 Matrix3Dは、アップルと南京大学、香港科技大学との共同開発によるAIモデルで、少ない2D写真から3Dシーンを生成します。

📸 ユーザーが3枚の写真を提供するだけで、高品質な3D再構築を取得でき、操作プロセスを簡素化します。

🚀 Matrix3Dは複数の処理ステップを統合し、効率を向上させ、人的エラーを減少させ、AI技術のさらなる発展を促進します。