阿里巴巴集團研究人員近日推出一項名爲"ZeroSearch"的突破性技術,徹底改變了訓練人工智能系統搜索信息的方式。這項創新技術通過模擬方法讓大型語言模型(LLM)開發高級搜索功能,無需在訓練過程中與真實搜索引擎交互,從而消除了對昂貴商業搜索引擎API的依賴。
解決成本與複雜性難題
ZeroSearch解決了AI行業面臨的兩大關鍵挑戰:搜索引擎返回文檔質量的不可預測性,以及向谷歌等商業搜索引擎進行數十萬次API調用所產生的高昂成本。
研究人員在本週發表於arXiv的論文中指出:"強化學習[RL]訓練需要頻繁部署,可能涉及數十萬個搜索請求,這會產生大量的API開銷,並嚴重限制可擴展性。爲了應對這些挑戰,我們推出了ZeroSearch,這是一個強化學習框架,無需與真實搜索引擎交互即可激勵LLM的搜索能力。"
創新的訓練方法
阿里巴巴的方法首先採用輕量級的監督式微調,將LLM轉換爲能夠根據查詢生成相關和不相關文檔的檢索模塊。在強化學習訓練過程中,系統採用"基於課程的推出策略",逐步降低生成文檔的質量。
研究人員解釋道:"我們的關鍵見解是,LLM在大規模預訓練過程中獲得了廣泛的世界知識,能夠根據搜索查詢生成相關文檔。真實搜索引擎和模擬LLM之間的主要區別在於返回內容的文本風格。"
性能超越傳統方法的同時大幅降低成本
在七個問答數據集的全面測試中,ZeroSearch不僅匹敵,甚至經常超越使用真實搜索引擎訓練的模型。令人印象深刻的是,一個70億參數的檢索模塊實現了與谷歌搜索相當的性能,而140億參數的模塊甚至超越了後者。
成本節省更是顯著:通過SerpAPI使用Google搜索進行約64,000個查詢的訓練成本約爲586.70美元,而在四臺A100GPU上使用14B參數模擬LLM的成本僅爲70.80美元,節省了88%的費用。
論文結論指出:"這證明了在強化學習設置中使用訓練有素的LLM替代真實搜索引擎的可行性。"
對AI行業的深遠影響
這一突破標誌着AI訓練方式的重大轉變。ZeroSearch表明,AI系統可以通過自我模擬而非依賴外部工具來實現功能改進,爲行業帶來多重益處:
- 降低進入門檻:對預算有限的初創公司和研究團隊,API調用成本降低近90%使高級AI訓練更加平民化
- 增強控制能力:開發者可以精確控制AI訓練過程中接觸的信息,不再受制於搜索引擎返回結果的不確定性
- 適用性廣泛:該技術已在多個模型系列上得到驗證,包括Qwen-2.5和LLaMA-3.2的基礎版本和指令調整版本
研究團隊已在GitHub和Hugging Face上公開了相關代碼、數據集和預訓練模型,鼓勵行業廣泛採用這一創新方法。
隨着大型語言模型繼續發展,ZeroSearch這樣的技術預示着未來AI系統將能通過自我模擬而非依賴外部服務來開發更復雜的功能,這可能從根本上改變AI開發的經濟性並減少對大型技術平臺的依賴。
諷刺的是,在教AI無需搜索引擎進行搜索的過程中,阿里巴巴可能創造了一項讓傳統搜索引擎對AI發展不再那麼重要的技術。隨着這些系統變得更加自給自足,技術格局可能在未來幾年內發生巨大變化。