中山大學、鵬城實驗室與美團三方聯合研發的X-SAM圖像分割模型近期正式發佈,這款多模態大模型在圖像分割領域實現了重要突破,將傳統的"分割萬物"能力升級爲"任意分割",顯著提升了模型的適應性和應用範圍。

傳統的Segment Anything Model(SAM)雖然在生成密集分割掩碼方面表現出色,但其只能接受單一視覺提示輸入的設計侷限性明顯。針對這一技術瓶頸,研究團隊創新性地提出了視覺定位分割(Visual Grounded Segmentation, VGS)任務框架,通過交互式視覺提示實現對所有實例對象的精確分割,爲多模態大語言模型提供了像素級的理解能力。

X-SAM的技術架構採用了多項創新設計。模型支持統一的輸入格式和輸出表示,能夠處理多種類型的視覺和文本查詢輸入。其核心的雙編碼器架構確保了對圖像內容和分割特徵的深度理解,而分割連接器則提供多尺度信息融合,大幅提升分割精度。

image.png

最值得關注的是,X-SAM集成了最新的Mask2Former架構作爲分割解碼器,這使得模型能夠在單次操作中同時分割多個目標對象,徹底突破了傳統SAM只能處理單一對象的技術限制。這一改進不僅提高了處理效率,也爲複雜場景下的批量分割任務提供了可能。

在模型訓練方面,研究團隊採用了三階段漸進式訓練策略,通過逐步增強的學習過程確保模型性能的穩定提升。經過在20多個主流分割數據集上的全面測試,X-SAM在對話生成分割任務和圖文理解任務中均取得了領先的性能表現,驗證了其技術方案的有效性。

X-SAM的發佈爲圖像分割技術發展指明瞭新方向,也爲構建更加智能的通用視覺理解系統提供了重要的技術基礎。研究團隊表示,下一步將重點探索該技術在視頻領域的應用拓展,推動圖像與視頻分割技術的統一化發展,進一步提升機器視覺理解能力的邊界。

這項研究成果不僅在學術層面具有重要意義,其在自動駕駛、醫療影像、工業檢測等實際應用場景中的潛力也值得期待。隨着模型開源和技術推廣,預計將推動整個計算機視覺領域的快速發展。

論文地址:https://arxiv.org/pdf/2508.04655

代碼地址:https://github.com/wanghao9610/X-SAM

Demo地址: https://47.115.200.157:7861