在人工智能領域,視覺語言模型(VLM)近年來取得了顯著進展,尤其是在二維視覺理解方面。隨着這一領域的不斷髮展,研究人員們開始將目光投向3D 場景理解。然而,由於高質量空間數據的稀缺和靜態視角假設的限制,現有的3D VLM 往往難以進行有效的推理和泛化。爲了解決這些挑戰,研究團隊近日發佈了名爲3D-R1的新型基礎模型。
3D-R1的核心創新在於通過高質量的合成數據集、強化學習以及動態視圖選擇的引入,顯著提升了3D 場景理解的推理能力和泛化能力。研究人員利用現有的3D-VL 數據集及基於 Gemini2.5Pro 的數據引擎,構建了一個名爲 Scene-30K 的高質量合成數據集。這一數據集爲3D-R1提供了強有力的冷啓動初始化數據。
在強化學習的訓練過程中,3D-R1引入了多種獎勵函數,包括感知獎勵、語義相似性獎勵和格式獎勵,旨在提升模型的推理能力,同時確保檢測的準確性和答案的語義精度。此外,3D-R1採用了一種動態視圖選擇策略,能夠自適應選擇對3D 場景理解最有參考價值的視角。
通過一系列實驗,3D-R1在多項3D 場景基準測試中平均提升了10%,證明了其在增強3D 場景理解推理和泛化能力方面的有效性。研究團隊表示,3D-R1的發佈標誌着3D 視覺語言模型研究的一個重要里程碑,爲未來的相關研究和應用奠定了堅實的基礎。
地址:https://huggingface.co/papers/2507.23478