4月7日,微軟必應(Bing)團隊宣佈正式開源名爲“Harrier”的全新詞嵌入模型系列,旨在重塑全球搜索、檢索及人工智能代理的底層邏輯。Harrier系列包含三個不同規格的版本,其中旗艦級27B模型在多語言MTEB v2基準測試中超越了OpenAI、亞馬遜以及Google Gemini等主流專有模型,位居榜首。

QQ20260408-085511.jpg

該模型的技術底座展現了極高的工業水準:Harrier支持超過100種語言,其上下文窗口高達32,000個詞元。在訓練策略上,微軟不僅使用了超過20億個真實示例,更引入了來自GPT-5的合成數據進行強化。這種高質量數據的組合使得Harrier在理解複雜語境與長文本處理上具備顯著優勢。除了270億參數的完整版外,爲適配不同算力環境,微軟同步推出了0.6B和2.7B的小參數版本,並全部通過MIT許可證在Hugging Face平臺開放。

嵌入模型作爲AI系統組織與檢索信息的關鍵技術,其性能直接決定了RAG(檢索增強生成)系統的準確性。微軟計劃將此技術深度集成至Bing搜索引擎及新型AI代理地面服務中。隨着人工智能逐步邁向多步驟任務的自主化,Harrier的開源不僅爲開發者提供了可替代專有模型的高性能工具,更標誌着開源生態在語義表示能力上已完成對頂尖閉源方案的階段性跨越,進一步加速了AI代理在全球多語言環境下的落地進程。