近日,意大利特倫託大學、德國柏林工業大學及慕尼黑工業大學的研究團隊聯合推出了開源多模態大模型 EarthMind,該模型旨在高效分析和理解複雜的地球觀測數據。這一創新的模型能夠處理多粒度和多傳感器的地球觀測信息,爲自然災害監測和城市發展規劃等領域提供了重要的決策依據。

地球  天文

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

地球觀測圖像通常涉及複雜場景和多樣目標,如建築物、道路及自然地形等,這些都使得模型在進行像素級理解時面臨重大挑戰。爲了克服這一難題,EarthMind 引入了空間注意力提示(SAP)模塊。SAP 的設計理念是通過顯式提取和重新分配注意力,將模型的關注點引導到與查詢對象相關的區域。推理過程中,SAP 計算分割令牌與圖像令牌之間的交叉注意力圖,從而識別模型對目標區域的關注程度,並通過與真實標註掩碼的比較來調整注意力分佈,使模型逐步學會如何在複雜圖像中準確定位目標。

除了像素級理解,EarthMind 還針對地球觀測數據的多模態性進行了深度融合。光學影像(如 RGB 和多光譜)與合成孔徑雷達(SAR)是兩種常見傳感器模態,它們各有優劣。EarthMind 的跨模態融合模塊通過模態對齊和模態互注意力兩大步驟,確保不同模態的數據能夠在統一的語義框架下進行有效交互。

在模態對齊階段,模型利用在線對比學習策略將非光學特徵與光學特徵空間對齊,確保不同模態特徵映射到同一語義空間中。在模態互注意力階段,模型通過提取每個模態的鄰域感知特徵並計算跨模態重要性權重,靈活調整對不同模態數據的依賴程度,從而實現更加魯棒的多模態理解。

EarthMind 還具備多粒度理解能力,通過視覺編碼器、區域編碼器和分割編碼器分別處理圖像級、區域級和像素級任務。這些編碼器生成的特徵被投影到共享語言空間,使模型能在不同粒度任務之間有效互動。例如,模型可以在圖像級任務中進行場景分類,在區域級任務中識別特定對象,而在像素級任務中進行精確的目標分割。

EarthMind 的推出爲地球觀測數據分析帶來了新的突破,未來將爲各類相關應用提供強有力的支持。

劃重點:  

🌍 EarthMind 是一個開源多模態大模型,專門處理複雜的地球觀測數據。  

🧠 引入空間注意力提示(SAP)模塊,提升像素級理解的精準度。  

🔄 通過跨模態融合和多粒度理解,EarthMind 實現了不同傳感器數據的有效整合與分析。