在當前的大模型(LLM)領域,深度搜索能力已成爲頂尖智能體的“必殺技”。然而,這一賽道的遊戲規則長期以來被資源雄厚的工業巨頭所主導。傳統的開發模式通常依賴於極其消耗資源的流水線,包括預訓練、持續預訓練(CPT)、監督微調(SFT)以及強化學習(RL)。

近日,來自學術界的研發團隊發佈了最新成果 OpenSeeker-v2,徹底打破了這一常規認知。研究報告指出,通過使用高質量、高難度的任務軌跡進行訓練,即便僅採用簡單的監督微調(SFT)方法,也能打造出性能頂尖的搜索智能體。

image.png

該團隊在數據合成方面提出了三項核心優化策略:首先是擴大知識圖譜規模,以提供更豐富的探索空間;其次是顯著增加工具集數量,擴展功能邊界;最後是實施嚴格的低步數過濾,確保訓練數據的精煉與高效。

實驗數據顯示,僅基於1.06萬條數據點訓練的 OpenSeeker-v2(30B規模,ReAct架構),在四項核心基準測試中展現了極強的統治力:其在BrowseComp上的準確率達到46.0%,在BrowseComp-ZH上爲58.1%,在“人類最後考試”(Humanity's Last Exam)中表現爲34.6%,而在xbench上更是高達78.0%。這一系列成績不僅刷新了紀錄,更全面超越了採用重度CPT+SFT+RL複雜管線訓練的工業界模型——通義DeepResearch。

image.png

值得關注的是,這是首個在同等模型規模與架構下,由純學術團隊僅通過SFT技術實現的 state-of-the-art(SOTA)搜索智能體。目前,該團隊已正式開源 OpenSeeker-v2 的模型權重。這一發現極大地降低了前沿搜索智能體的研發門檻,爲學術界和開源社區提供了更具參考價值的輕量化開發路徑。

論文地址:https://arxiv.org/pdf/2605.04036