有研究團隊展示了一種創新的視覺位置識別技術Revisit Anything,只要輸入圖片,就能能識別出圖片中是在什麼地方。
圖源備註:圖片由AI生成,圖片授權服務商Midjourney
這項技術結合了最新的 SAM(Segment Anything Model)和 DINO(Self-Distillation with No Labels),旨在提升圖像段的檢索效果,從而實現更精確的地點重識別。
這項技術的核心在於圖分段的檢索能力,研究團隊使用了一系列數據集,包括 Baidu、VPAir、Pitts 和17places 等,提供了全面的測試基礎。爲了方便用戶使用,研究者建議大家從17places 這個較小的數據集開始,這樣可以快速上手。
在準備數據集時,用戶需要確保將數據集的文件夾名稱與配置文件中的名稱一致,確保數據能夠順利讀取。
接下來,用戶可以選擇使用 DINO 或 SAM 模型進行特徵提取,並生成 VLAD 聚類中心。值得注意的是,生成聚類中心的步驟是可選的,已有的中心可以直接從緩存中調用。完成特徵提取後,用戶需要提取 PCA 模型,然後運行主 SegVLAD 管道以獲取最終結果。所有結果都可以選擇保存,方便後續的離線檢索計算。
這項研究不僅提供了一種新的視覺位置識別方案,還展示瞭如何利用現代深度學習模型進行圖像分析,推動了該領域的進一步發展。
項目入口:https://github.com/AnyLoc/Revisit-Anything
劃重點:
🌟 該研究結合了 SAM 和 DINO 技術,推出了一種新穎的視覺位置識別方法。
📊 用戶可通過特定的數據集準備和配置文件設置,快速上手並運行實驗。
🔍 研究提供了詳細的步驟和腳本,幫助用戶實現 SegVLAD 的高效結果。