在數字化時代,我們每天都在與海量圖片打交道。但你有沒有想過,如果能夠通過一張草圖、一幅藝術畫,甚至是一張模糊不清的照片,就迅速找到我們想要的圖片,那將是多麼神奇的體驗?北京大學的袁粒課題組與南洋理工大學、清華自動化所的研究人員們,就給我們帶來了這樣一個驚喜——一種全新的圖像檢索技術,它能夠應對多樣化的查詢風格,無論是草圖、藝術畫還是低分辨率圖像,都能精準匹配。

這項技術的核心,是他們提出的“通用風格檢索”方法。它不同於傳統的基於文本的圖片檢索,新方法能夠處理多種查詢風格,甚至是組合查詢,如草圖加文本,藝術畫加文本等。這不僅提升了檢索的靈活性,也極大地提高了檢索的準確性。

image.png

爲了實現這一目標,研究團隊構建了兩個獨特的數據集:DSR(Diverse-Style Retrieval Dataset)和ImageNet-X。DSR包含了10,000張自然圖片和四種檢索風格的對應文本,而ImageNet-X則包含了100萬張帶有各種風格標註的自然圖片。這兩個數據集的建立,爲新方法提供了豐富的訓練和測試資源。

更令人興奮的是,研究團隊還提出了一個名爲FreestyleRet的框架。這個框架通過提取圖片風格並將其注入到檢索模型中,有效解決了現有模型無法兼容不同類型檢索向量的問題。FreestyleRet框架由三個主要模塊組成:風格提取模塊、風格空間構建模塊和風格啓發的提示微調模塊。這些模塊共同工作,使得檢索模型能夠理解和處理各種風格的查詢向量。

image.png

在實驗中,FreestyleRet框架展現出了卓越的性能。它不僅在DSR和ImageNet-X數據集上的Recall@1和Recall@5性能上取得了顯著提升,而且在處理多種不同風格的查詢向量時,也表現出了良好的泛化能力和擴展性。

這項研究的成果已經公開發表,並在arXiv上可以查閱到詳細的論文。同時,相關的代碼和數據集也已經開源,供有興趣的研究者和開發者進一步探索和應用。

這不僅僅是圖像檢索領域的一次技術飛躍,更是對我們每個人日常生活的一次巨大便利。想象一下,未來無論是尋找靈感、進行學術研究還是日常娛樂,我們都將能夠更加快捷、準確地找到所需的圖片資源。這正是科技的力量,讓一切變得可能。

論文地址:https://arxiv.org/pdf/2312.02428