Meta 推出的“分割一切”模型 SAM 在圖像分割領域可謂是所向披靡,但一碰到視頻物體追蹤,它就有點力不從心了,尤其是在人山人海、目標快速移動或玩“躲貓貓”的場景下,SAM 就會犯迷糊。這是因爲 SAM 模型的記憶機制就像個“固定窗口”,只顧着記錄最近的畫面,而忽略了記憶內容的質量,導致在視頻中出現誤差傳播,追蹤效果大打折扣。
爲了解決這個問題,華盛頓大學的研究人員“苦思冥想”,終於開發出了一款名爲 SAMURAI 的模型,對 SAM2進行了“魔鬼改造”,專門用來搞定視頻物體追蹤。SAMURAI 的名字取得很霸氣,它也確實有兩把刷子:它結合了時間運動線索和新提出的運動感知記憶選擇機制,就像一位武藝高強的武士,能夠精準預測物體的運動軌跡,並改進掩碼選擇,最終在無需重新訓練或微調的情況下,實現穩健、準確的追蹤。
SAMURAI 的祕訣在於兩大創新:
第一招:運動建模系統。這個系統就像武士的“鷹眼”,能夠更準確地預測複雜場景中的物體位置,從而優化掩碼的選擇,讓 SAMURAI 不會被相似的物體迷惑。
第二招:運動感知記憶選擇機制。SAMURAI 拋棄了 SAM2簡單的“固定窗口”記憶機制,轉而採用混合評分系統,結合了原始掩碼相似度、物體和運動分數,就像武士精心挑選武器一樣,只保留最相關的歷史信息,從而提高模型的整體追蹤可靠性,避免誤差傳播。

SAMURAI 不僅武藝高強,還身手敏捷,能夠實時運行。更重要的是,它在各種基準數據集上都展現了強大的零樣本性能,這意味着它無需經過專門的訓練,就能適應各種不同的場景,展現了極強的泛化能力。
在實戰測試中,SAMURAI 在成功率和精度方面都比現有的追蹤器取得了顯著提高。例如,在 LaSOText 數據集上,它獲得了7.1% 的 AUC 增益;在 GOT-10k 數據集上,它獲得了3.5% 的 AO 增益。 更令人驚喜的是,它在 LaSOT 數據集上甚至取得了與完全監督方法相媲美的結果,這充分證明了它在複雜追蹤場景中的強大實力以及在動態環境中實際應用的巨大潛力。

SAMURAI 的成功,得益於它對運動信息的巧妙利用。 研究人員將傳統的卡爾曼濾波器與 SAM2結合,通過預測物體的位置和尺寸,幫助模型從多個候選掩碼中選擇最可靠的掩碼。 此外,他們還設計了一種基於三種評分(掩碼相似度分數、物體出現分數和運動分數)的記憶選擇機制,只有當這三種分數都達到閾值時,纔會將該幀畫面選入記憶庫。這種選擇性的記憶機制,有效地避免了無關信息的干擾,提高了追蹤的準確性。
SAMURAI 的出現,爲視頻物體追蹤領域帶來了新的希望。它不僅在性能上超越了現有的追蹤器,而且無需重新訓練或微調,可以方便地應用於各種場景。相信在未來,SAMURAI 將會在自動駕駛、機器人、視頻監控等領域發揮重要作用,爲我們帶來更加智能的生活體驗。
項目地址:https://yangchris11.github.io/samurai/
論文地址:https://arxiv.org/pdf/2411.11922
