2025年3月6日,北京智源人工智能研究院宣佈開源多模態向量模型BGE-VL,這一成果標誌着多模態檢索領域的新突破。BGE-VL模型在圖文檢索、組合圖像檢索等多模態檢索任務中取得了最佳效果,顯著提升了多模態檢索的性能。

BGE-VL的開發基於大規模合成數據集MegaPairs,該數據集通過結合多模態表徵模型、多模態大模型和大語言模型,從海量圖文語料庫中高效挖掘多模態三元組數據。這一方法不僅具備優異的可擴展性,能夠以極低成本持續生成多樣化且高質量的數據,還大幅提升了數據質量。與傳統人工標註數據相比,MegaPairs僅需1/70的數據量即可實現更優的訓練效果。

在技術實現上,MegaPairs的構造分爲兩個關鍵步驟:首先,使用多種相似度模型從圖像數據集中挖掘多樣的圖像對;其次,利用開源的多模態大模型和大語言模型合成開放域檢索指令。通過這一方法,MegaPairs無需人工參與,即可擴展性地生成大規模、高質量且多樣化的多模態檢索指令數據集。此次發佈的版本涵蓋了2600萬條樣本,爲多模態檢索模型的訓練提供了豐富的數據支持。

微信截圖_20250306144622.png

基於MegaPairs數據集,智源BGE團隊訓練了3款不同尺寸的多模態檢索模型,包括BGE-VL-Base、BGE-VL-Large和BGE-VL-MLLM。這些模型在多個任務上展現了遠超以往方法的領先性能。在Massive Multimodal Embedding Benchmark(MMEB)的36個多模態嵌入評測任務中,BGE-VL在零樣本性能和有監督微調後的性能上均實現了最優表現,證明了其良好的任務泛化能力。

在組合圖像檢索任務中,BGE-VL在CIRCO評測集上刷新了現有基準,大幅超越了谷歌的MagicLens系列和英偉達的MM-Embed等對比基線。BGE-VL-MLLM較之前的SOTA模型提升了8.1個百分點,而BGE-VL-Base模型以不到1/50的參數量超越了其他大模型底座的多模態檢索器。

此外,研究還表明,MegaPairs數據集具有良好的可擴展性和高效性。隨着數據規模的增加,BGE-VL模型表現出一致的性能增長趨勢。與在37M閉源數據上訓練的SOTA模型Google MagicLens相比,MegaPairs僅需1/70的數據規模(0.5M)即可實現顯著的性能優勢。

項目主頁:

https://github.com/VectorSpaceLab/MegaPairs

模型地址:

https://huggingface.co/BAAI/BGE-VL-MLLM-S1