最近,微軟研究院與北京航空航天大學的研究團隊聯合推出了一個名爲 E5-V 的全新框架,旨在爲多模態嵌入提供一種更高效的解決方案。隨着人工智能的不斷進步,多模態大語言模型(MLLMs)已經成爲研究的熱點,它們能夠同時理解文本和視覺信息,從而更好地處理複雜的數據關係。但在多模態學習中,有效表示多種信息仍然是一個重大挑戰。

image.png

項目入口:https://github.com/kongds/E5-V/

以往的模型如 CLIP,雖然通過對比學習將視覺與語言表示對齊,但多數模型仍然依賴於圖像和文本對的獨立編碼器,這導致輸入整合的效果不佳。此外,這些模型通常需要大量的多模態訓練數據,成本高昂,且在複雜的語言理解和視覺 - 語言任務中表現不足。

E5-V 框架的創新之處在於,它採用了單模態訓練的方式,僅使用文本對進行訓練,這樣不僅大幅降低了訓練成本,也避免了需要收集多模態數據的麻煩。在訓練過程中,E5-V 框架通過將多模態輸入轉化爲單詞來消除模態差距。這一方法讓模型能夠更準確地執行諸如複合圖像檢索等複雜任務。

根據研究團隊的實驗結果,E5-V 在多個任務上的表現都非常出色,比如文本 - 圖像檢索、複合圖像檢索等。它在零樣本圖像檢索任務中表現優異,超越了現有的頂尖模型 CLIP ViT-L,在 Flickr30K 和 COCO 數據集上的 Recall@1分別提高了12.2% 和15.0%。

此外,在複合圖像檢索任務中,E5-V 也超越了目前的最先進方法 iSEARLE-XL,在 CIRR 數據集上提高了8.50% 和10.07%。

image.png

E5-V 框架代表了多模態學習的重大進步。通過利用單模態訓練和基於提示的表示方法,E5-V 解決了傳統方法的侷限性,爲多模態嵌入提供了更高效、更有效的解決方案。

劃重點:

🌟 E5-V 框架通過單模態訓練簡化了多模態學習,降低了成本。  

📈 在多個任務中,E5-V 展示了超越現有頂尖模型的優異性能。  

🔑 該框架爲未來多模態模型的開發設立了新標準,具有廣泛的應用潛力。