智源研究院最近發佈了三款新的向量模型,這些模型在向量檢索任務中表現出色,並刷新了多個評測基準的最佳水平。這三款模型分別是:
BGE-EN-ICL:一個英文向量模型,通過引入任務相關的查詢-文檔示例作爲少量示例,增強了模型的語義表達能力。
BGE-Multilingual-Gemma2:一個多語言向量模型,表現出色,尤其是在中英文能力提升方面。
BGE-Reranker-v2.5-Gemma2-Lightweight:一個多語言重排序模型,通過優化設計,支持逐層提前輸出和token壓縮,節省了計算資源。
這些模型基於大語言模型進行訓練,具備卓越的領域適應能力和廣泛的泛化性能。它們還採用了情境學習能力和蒸餾技術,提升了模型的整體性能和檢索任務中的能力。BGE-Reranker-v2.5-Gemma2-Lightweight模型特別注重輕量化設計,使其在保持卓越性能的同時更加高效。
在實驗結果中,這些模型在MTEB、BEIR、AIR-Bench等多個評測基準中表現出色。BGE-Multilingual-Gemma2在多語言能力方面表現突出,尤其是在中英文能力提升方面。BGE-EN-ICL在few-shot表現上尤爲突出。BGE-Reranker-v2.5-Gemma2-Lightweight在重排任務中也達到了更好的結果,並在節省計算資源的情況下保證了優越的效果。
模型鏈接
(1) BGE-EN-ICL:
https://huggingface.co/BAAI/bge-en-icl
(2) BGE-Multilingual-Gemma2:
https://huggingface.co/BAAI/bge-multilingual-gemma2
(3) BGE-Reranker-v2.5-Gemma2-Lightweight:
https://huggingface.co/BAAI/bge-reranker-v2.5-gemma2-lightweight