在多模態任務中,視覺語言模型(VLMs)起着至關重要的作用,如圖像檢索、圖像說明和醫學診斷等。這些模型的目標是將視覺數據與語言數據進行對齊,以實現更高效的信息處理。然而,目前的 VLMs 在理解否定方面仍面臨重大挑戰。
否定在許多應用中至關重要,例如區分 “沒有窗戶的房間” 和 “有窗戶的房間”。儘管 VLMs 取得了顯著進展,但在處理否定陳述時,現有模型的表現卻大幅下降。這種限制尤其在安全監控和醫療保健等高風險領域中顯得尤爲重要。
現有的 VLMs,如 CLIP,採用共享嵌入空間來對齊視覺和文本表示。雖然這些模型在跨模態檢索和圖像說明等任務上表現出色,但在處理否定語句時卻顯得力不從心。此問題的根源在於預訓練數據的偏差,訓練數據主要由肯定示例構成,導致模型將否定與肯定陳述視爲同義。因此,現有的基準測試,如 CREPE 和 CC-Neg,採用了簡單的模板示例,無法真實反映自然語言中否定的豐富性和深度。這使得 VLMs 在進行精準的語言理解應用時,如查詢醫學影像數據庫中的複雜條件,面臨巨大挑戰。
爲了解決這些問題,來自麻省理工學院、谷歌 DeepMind 和牛津大學的研究人員提出了 NegBench 框架,用於評估和改進 VLMs 對否定的理解能力。該框架評估兩個基本任務:檢索與否定(Retrieval-Neg),檢驗模型根據肯定和否定描述檢索圖像的能力;多項選擇題與否定(MCQ-Neg),評估模型在微妙理解上的表現。NegBench 使用大量合成數據集,如 CC12M-NegCap 和 CC12M-NegMCQ,包含數百萬個涵蓋豐富否定場景的標題,從而提高模型的訓練和評估效果。
通過結合真實和合成的數據集,NegBench 有效克服了現有模型的限制,顯著提高了模型的性能和泛化能力。經過微調的模型在檢索和理解任務上都表現出顯著改善,特別是在處理否定查詢時,模型的召回率提高了10%。在多項選擇任務中,準確率提升了多達40%,顯示出在微妙的肯定和否定標題之間進行區分的能力大大增強。
NegBench 的提出,填補了 VLMs 在理解否定方面的關鍵空白,爲構建更強大的人工智能系統鋪平了道路,尤其在醫學診斷和語義內容檢索等關鍵領域具有重要意義。
論文:https://arxiv.org/abs/2501.09425
代碼:https://github.com/m1k2zoo/negbench
劃重點:
🌟 研究人員揭示了視覺語言模型在理解否定方面的不足,主要源於訓練數據的偏差。
📈 NegBench 框架通過引入豐富的否定示例,顯著提升了模型在檢索和理解任務上的表現。
🔍 微調後的模型在處理否定查詢時,準確率和召回率都有顯著提高,推動了人工智能系統的進步。