人工知能分野において、視覚言語モデル(VLM)は近年顕著な進展を遂げており、特に2次元の視覚理解においては大きな成果を収めています。この分野がさらに発展するにつれて、研究者たちは3Dシーン理解に注目し始めました。しかし、高品質な空間データが限られており、静的視点の仮定による制約があるため、現存する3D VLMは効果的な推論や一般化が難しい場合があります。これらの課題を解決するために、研究チームは新しい基本モデル「3D-R1」を公開しました。
3D-R1のコアイノベーションは、高品質な合成データセット、強化学習および動的ビュー選択の導入により、3Dシーン理解の推論能力と一般化能力を大幅に向上させることです。研究者は既存の3D-VLデータセットおよびGemini2.5Proに基づくデータエンジンを使用し、Scene-30Kという高品質な合成データセットを構築しました。このデータセットは3D-R1に強力な初期化データを提供しています。
強化学習のトレーニング中に、3D-R1はいくつかの報酬関数を取り入れました。それには、感覚報酬、意味類似性報酬、フォーマット報酬が含まれます。これらはモデルの推論能力を向上させ、検出の正確さと答えの意味的精度を保証することを目的としています。また、3D-R1は動的ビュー選択戦略を採用しており、3Dシーン理解において最も参考価値のある視点を自動的に選択できるようにしています。
複数の実験を通じて、3D-R1は多数の3Dシーンベンチマークテストで平均して10%の改善を示し、3Dシーン理解の推論および一般化能力を強化する効果を証明しています。研究チームは、3D-R1のリリースが3D視覚言語モデルの研究における重要な節目であることを示し、今後の関連研究および応用の基盤を固めたと述べています。