最近、イタリアのトレント大学、ドイツのベルリン工業大学およびミュンヘン工科大学の研究チームは、オープンソースのマルチモーダル大規模モデル「EarthMind」を共同でリリースしました。このモデルは、複雑な地球観測データを効率的に分析し理解することを目的としています。この革新的なモデルは、多スケールおよび多センサーの地球観測情報処理が可能であり、自然災害の監視や都市開発計画などの分野において重要な意思決定の根拠を提供します。
図の出典:画像はAIによって生成され、画像ライセンスサービスはMidjourneyです
地球観測画像は通常、複雑なシーンや多様な対象(建物、道路、自然地形など)を含んでおり、これらの要素はモデルがピクセル単位での理解を行う際に大きな課題となっています。この問題を克服するため、EarthMind は空間的アテンションプロンプト(SAP)モジュールを導入しています。SAPの設計思想は、明示的にアテンションを抽出・再配分して、モデルの注目点をクエリオブジェクトに関連する領域に引き寄せるものです。推論中に、SAPはセグメンテーショントークンと画像トークンの間のクロスアテンションマップを計算し、モデルが目標領域にどの程度注目しているかを識別します。その後、実際のラベルマスクと比較してアテンション分布を調整することで、モデルは複雑な画像の中で目標を正確に特定する方法を段階的に学習します。
ピクセルレベルの理解だけでなく、EarthMind は地球観測データのマルチモーダル性にも深く統合しています。光学画像(RGBや多波長など)と合成開口レーダー(SAR)は、一般的なセンサーモードであり、それぞれに利点と欠点があります。EarthMind のクロスモーダル統合モジュールは、モード整列とモード相互アテンションの2つのステップを通じて、異なるモードのデータが統一された意味フレームワーク内で効果的に相互作用できるようにします。
モード整列の段階では、モデルはオンラインコントラスト学習戦略を使用して、非光学的な特徴と光学的な特徴空間を整列させ、異なるモードの特徴が同じ意味空間にマッピングされるようにします。モード相互アテンションの段階では、モデルは各モードの近隣感知特徴を抽出し、クロスモーダル重要性重みを計算することで、異なるモードデータへの依存度を柔軟に調整し、より頑強なマルチモーダル理解を実現します。
EarthMind は、多スケールの理解能力も備えています。視覚エンコーダー、領域エンコーダー、セグメンテーションエンコーダーはそれぞれ画像レベル、領域レベル、ピクセルレベルのタスクを処理します。これらのエンコーダーが生成する特徴は共有言語空間に投影され、モデルは異なるスケールのタスク間で効果的に相互作用できます。例えば、モデルは画像レベルのタスクでシーン分類を行い、領域レベルのタスクで特定のオブジェクトを識別し、ピクセルレベルのタスクで正確なオブジェクトセグメンテーションを行うことができます。
EarthMind の登場により、地球観測データの分析には新たな突破がもたらされ、今後さまざまな関連アプリケーションに強力な支援を提供するでしょう。
ポイント:
🌍 EarthMind は、複雑な地球観測データを処理するオープンソースのマルチモーダル大規模モデルです。
🧠 空間的アテンションプロンプト(SAP)モジュールを導入し、ピクセルレベルの理解の精度を向上させます。
🔄 クロスモーダル統合と多スケール理解を通じて、EarthMind は異なるセンサーデータの効果的な統合と分析を実現します。