伊利諾伊理工學院、浙江大學、中佛羅里達大學以及伊利諾伊大學芝加哥分校的研究團隊近日聯合發佈了全新的3D場景大語言模型Robin3D。

該模型在包含一百萬條指令遵循數據的大規模數據集上進行訓練,並在五個常用的3D多模態學習基準測試中均取得了當前最佳的性能表現,標誌着在構建通用3D智能體方向上的重大進步。

image.png

Robin3D的成功得益於其創新的數據引擎RIG (Robust Instruction Generation)。RIG引擎旨在生成對抗性指令遵循數據和多樣化指令遵循數據兩種關鍵指令數據。

對抗性指令遵循數據通過混合正負樣本來增強模型的辨別理解能力,而多樣化指令遵循數據則包含各種指令風格以增強模型的泛化能力。

image.png

研究人員指出,現有的3D大語言模型主要依賴於正面的3D視覺語言配對和基於模板的指令進行訓練,這導致了泛化能力不足和過度擬合的風險。Robin3D通過引入對抗性和多樣化的指令數據,有效地克服了這些侷限性。

Robin3D模型還集成了關係增強投影器(RAP)ID特徵綁定(IFB)指稱和定位能力。RAP模塊通過豐富的場景級上下文和位置信息來增強以對象爲中心的特徵,而IFB模塊則通過將每個ID與其對應的特徵綁定來加強它們之間的連接。

image.png

實驗結果表明,Robin3D在無需針對特定任務進行微調的情況下,在包括ScanRefer、Multi3DRefer、Scan2Cap、ScanQA和SQA3D在內的五個基準測試中均超越了之前的最佳方法。

尤其是在包含零目標案例的Multi3DRefer評估中,Robin3D在F1@0.25和F1@0.5指標上分別取得了7.8%和7.3%的顯著提升。

Robin3D的發佈標誌着3D大語言模型在空間智能方面取得了重大進步,爲未來構建更加通用和強大的3D智能體奠定了堅實的基礎。

論文地址:https://arxiv.org/pdf/2410.00255