智源研究院は最近、ベクトル検索タスクにおいて優れた性能を示し、複数の評価基準で最高レベルを更新した3つの新しいベクトルモデルを発表しました。
BGE-EN-ICL:タスク関連のクエリとドキュメントの例を少量のサンプルとして導入することで、モデルのセマンティック表現能力を強化した英語ベクトルモデルです。
BGE-Multilingual-Gemma2:特に中国語と英語の能力向上において優れた性能を示す多言語ベクトルモデルです。
BGE-Reranker-v2.5-Gemma2-Lightweight:最適化された設計により、レイヤーごとの早期出力とトークン圧縮をサポートし、計算リソースを節約する多言語再ランキングモデルです。
これらのモデルは大規模言語モデルに基づいてトレーニングされており、優れたドメイン適応能力と広範な汎化性能を備えています。また、コンテキスト学習能力と蒸留技術を採用することで、モデル全体の性能と検索タスクにおける能力を向上させています。BGE-Reranker-v2.5-Gemma2-Lightweightモデルは特に軽量化設計に重点を置いており、卓越した性能を維持しながら、より効率的なものとなっています。
実験結果では、これらのモデルはMTEB、BEIR、AIR-Benchなどの複数の評価基準で優れた性能を示しました。BGE-Multilingual-Gemma2は多言語能力、特に中国語と英語の能力向上において顕著な成果を上げています。BGE-EN-ICLはFew-shot学習において特に優れた性能を示しました。BGE-Reranker-v2.5-Gemma2-Lightweightは再ランキングタスクでもより良い結果を達成し、計算リソースの節約をしながら優れた効果を保証しています。
モデルリンク
(1)BGE-EN-ICL:
https://huggingface.co/BAAI/bge-en-icl
(2)BGE-Multilingual-Gemma2:
https://huggingface.co/BAAI/bge-multilingual-gemma2
(3)BGE-Reranker-v2.5-Gemma2-Lightweight:
https://huggingface.co/BAAI/bge-reranker-v2.5-gemma2-lightweight