科技巨頭 Meta 與香港中文大學的研究團隊聯合推出了 Multi-SpatialMLLM 模型,這一新框架在多模態大語言模型(MLLMs)的發展中取得了顯著進展,尤其是在空間理解方面。該模型通過整合深度感知、視覺對應和動態感知三大組件,突破了以往單幀圖像分析的限制,爲更復雜的視覺任務提供了強有力的支持。

image.png

近年來,隨着機器人和自動駕駛等領域對空間理解能力的需求不斷增長,現有的 MLLMs 面臨着諸多挑戰。研究發現,現有模型在基礎空間推理任務中表現不佳,例如,無法準確區分左右方向。這一現象主要源於缺乏專門的訓練數據,且傳統的方法往往只能基於靜態視角進行分析,缺少對動態信息的處理。

爲了解決這一問題,Meta 的 FAIR 團隊與香港中文大學共同推出了 MultiSPA 數據集。該數據集覆蓋了超過2700萬個樣本,涵蓋多樣化的3D 和4D 場景,結合了 Aria Digital Twin 和 Panoptic Studio 等高質量標註數據,並通過 GPT-4o 生成了多種任務模板。

此外,研究團隊設計了五個訓練任務,包括深度感知、相機移動感知和物體大小感知等,以此來提升 Multi-SpatialMLLM 在多幀空間推理上的能力。經過一系列測試,Multi-SpatialMLLM 在 MultiSPA 基準測試中的表現十分優異,平均提升了36%,在定性任務中的準確率也達到了80-90%,顯著超越了基礎模型的50%。尤其是在預測相機移動向量等高難度任務上,該模型也取得了18% 的準確率。

在 BLINK 基準測試中,Multi-SpatialMLLM 的準確率接近90%,平均提升了26.4%,超越了多個專有系統。而在標準視覺問答(VQA)測試中,該模型也保持了其原有的性能,顯示了其在不依賴過度擬合空間推理任務的情況下,依然具有良好的通用能力。

劃重點:

🌟 Meta 推出的 Multi-SpatialMLLM 模型顯著提升了多模態大語言模型的空間理解能力。

📊 新模型通過整合深度感知、視覺對應和動態感知三大組件,克服了單幀圖像分析的侷限。

🏆 Multi-SpatialMLLM 在多項基準測試中表現優秀,準確率大幅提升,超越傳統模型。