在當今科技領域,CLIP(Contrastive Language-Image Pre-training)是一個重要的多模態基礎模型。它通過在大規模圖像 - 文本對上使用對比學習損失,將視覺信號和文本信號結合到一個共享的特徵空間中。
CLIP 作爲檢索器,能夠支持零 - shot 分類、檢測、分割和圖像 - 文本檢索等多種任務。同時,作爲特徵提取器,它在幾乎所有跨模態表示任務中佔據主導地位,例如圖像理解、視頻理解以及文本到圖像或視頻生成。CLIP 的強大之處在於它能夠將圖像與自然語言相連接,並捕捉人類知識,這得益於其在大規模網絡數據上的訓練,其中包含詳細的文本描述。
然而,CLIP 在處理長而複雜的文本說明方面存在一定的侷限性。爲了克服這一問題,微軟和同濟大學的研究人員提出了 LLM2CLIP 方法,旨在通過整合大型語言模型(LLMs)來增強視覺表示學習。這一方法大膽地替換了原有的 CLIP 文本編碼器,利用 LLMs 的豐富知識來提升 CLIP 的視覺編碼器性能。研究發現,直接將 LLMs 集成到 CLIP 中會導致性能下降,因此需要解決這一挑戰。
LLM2CLIP 方法通過引入 “標題對比微調” 技術,大大提高了 LLM 在分離圖像標題方面的能力,從而實現了性能的顯著提升。
研究者們使用不同大小的數據集進行微調實驗,包括小型的 CC-3M、中型的 CC-3M 和 CC-12M,以及大型的 CC-3M、CC-12M、YFCC-15M 和 Recaption-1B。結果表明,使用 LLM2CLIP 訓練的模型在圖像到文本及文本到圖像檢索任務中表現優於傳統的 CLIP 和 EVA 模型。
通過與 Llava1.5等模型結合進行多模態訓練,LLM2CLIP 在幾乎所有基準測試中表現出色,尤其是在處理長短文本檢索任務時,將之前的 EVA02模型性能提升了16.5%。這一創新方法不僅將 CLIP 從僅僅處理英文數據轉變爲一種強大的跨語言模型,也爲 CLIP 訓練的未來研究奠定了基礎。
模型:https://huggingface.co/collections/microsoft/llm2clip-672323a266173cfa40b32d4c
代碼:https://github.com/microsoft/LLM2CLIP/
論文:https://arxiv.org/abs/2411.04997
劃重點:
🌟 LLM2CLIP 是微軟與同濟大學合作提出的創新方法,旨在通過替換 CLIP 的文本編碼器,提升其視覺編碼器性能。
📈 該方法通過 “標題對比微調” 技術顯著增強了模型在圖像與文本匹配方面的能力,超越了現有的最先進模型。
🌐 LLM2CLIP 在多個數據集上的實驗顯示其在長短文本檢索任務中的表現優於傳統模型,推動了跨語言模型的發展。