近日,華盛頓大學的研究團隊發佈了一個名爲 SAMURAI 的新型視覺追蹤模型。該模型基於沿的 Segment Anything Model2(SAM2),旨在解決在複雜場景中進行視覺對象追蹤時所遇到的挑戰,尤其是在處理快速移動和自遮擋物體時。

SAM2在物體分割任務中表現出色,但在視覺追蹤方面卻存在一些限制。例如,在擁擠的場景中,固定窗口的記憶方式未能考慮到所選記憶的質量,這可能導致錯誤在視頻序列中不斷傳播。

爲了解決這一問題,研究團隊提出了 SAMURAI,通過引入時間運動線索以及運動感知記憶選擇機制,顯著提高了物體運動的預測能力和掩膜選擇的準確性。這一創新使得 SAMURAI 能夠在不需要重新訓練或微調的情況下,實現穩健、準確的追蹤。

在實時操作方面,SAMURAI 展示了強大的零 - shot 性能,意味着該模型能夠在沒有經過特定數據集訓練的情況下,依然表現良好。

image.png

研究團隊通過評估,發現 SAMURAI 在多個基準數據集上的成功率和精度都有了顯著提升。在 LaSOT-ext 數據集上,SAMURAI 實現了7.1% 的 AUC 增長,而在 GOT-10k 數據集上則獲得了3.5% 的 AO 增長。此外,與完全監督的方法相比,SAMURAI 在 LaSOT 數據集上的表現同樣具有競爭力,證明了其在複雜追蹤場景下的魯棒性和廣泛應用潛力。

研究團隊表示,SAMURAI 的成功爲未來在更爲複雜和動態的環境中應用視覺追蹤技術奠定了基礎。他們希望這一創新能夠推動視覺追蹤領域的發展,滿足實時應用的需求,爲各類智能設備提供更強的視覺識別能力。

項目入口:https://yangchris11.github.io/samurai/

劃重點:

🔍 SAMURAI 是對 SAM2模型的創新改進,旨在提升在複雜場景中的視覺對象追蹤能力。  

⚙️ 通過引入運動感知記憶機制,SAMURAI 能夠準確預測物體運動並優化掩膜選擇,避免了錯誤傳播。  

📈 在多個基準數據集上,SAMURAI 顯示出強大的零 - shot 性能,顯著提高了追蹤成功率和精度。