中山大学、鹏城ラボラトリーおよびメイドゥーが共同で開発したX-SAM画像セグメンテーションモデルが最近正式にリリースされ、このマルチモーダル大規模モデルは画像セグメンテーション分野で重要な突破を遂げました。「万物をセグメントする」能力を「任意のセグメント」に進化させ、モデルの適応性と応用範囲を顕著に向上させています。
従来のSegment Anything Model(SAM)は、密集なセグメンテーションマスクの生成において優れた性能を発揮していますが、単一の視覚的ヒント入力のみを受け付ける設計上の制限が明確です。この技術的な課題に対処するために、研究チームは視覚的位置付けによるセグメンテーション(Visual Grounded Segmentation、VGS)タスクフレームワークを独創的に提案しました。対話型の視覚的ヒントを通じて、すべてのインスタンスオブジェクトを正確にセグメントし、マルチモーダル大規模言語モデルに対してピクセルレベルの理解能力を提供します。
X-SAMの技術アーキテクチャには複数の革新的な設計が含まれています。モデルは統一された入力形式と出力表現をサポートしており、さまざまなタイプの視覚的およびテキストクエリ入力を処理できます。コアとなる二つのエンコーダー構造により、画像コンテンツとセグメンテーション特徴の深い理解が可能となり、セグメンテーションコネクターは多スケール情報の融合を提供し、セグメンテーション精度を大幅に向上させます。
最も注目すべき点は、X-SAMが最新のMask2Formerアーキテクチャをセグメンテーションデコーダーとして統合していることです。これにより、モデルは一度の操作で複数の目標オブジェクトを同時にセグメントできるようになり、従来のSAMが単一オブジェクトしか処理できなかった技術的制限を完全に打ち破りました。この改善により、処理効率が向上し、複雑なシナリオでのバッチセグメンテーションタスクの実現が可能になります。
モデルのトレーニングに関しては、研究チームは三段階の段階的なトレーニング戦略を採用し、徐々に強化される学習プロセスを通じてモデル性能の安定した向上を確保しました。20以上の主要なセグメンテーションデータセット上で行われた包括的なテストにより、X-SAMは会話生成セグメンテーションタスクおよび画像・テキスト理解タスクで優れたパフォーマンスを示し、その技術的解決策の有効性を証明しました。
X-SAMのリリースは、画像セグメンテーション技術の発展に新たな方向性を示し、よりスマートな汎用視覚理解システムの構築に重要な技術的基盤を提供します。研究チームは、今後この技術を動画分野への応用拡張に重点的に探求し、画像と動画のセグメンテーション技術の統一化を推進し、機械視覚理解能力の境界をさらに広げることを述べています。
この研究成果は、学術的にも重要な意義を持ち、自動運転、医療画像、産業検査などの実際の応用場面における潜在的な価値も期待されています。モデルのオープンソース化と技術の普及を通じて、コンピュータビジョン分野全体の急速な発展を促すことが予想されます。
論文のURL: https://arxiv.org/pdf/2508.04655
コードのURL: https://github.com/wanghao9610/X-SAM
DemoのURL: https://47.115.200.157:7861