在人工智能的迅速發展中,如何提升大語言模型(LLM)的檢索和推理能力成爲研究的熱門話題。近日,阿里通義實驗室提出了一個名爲 “ZeroSearch” 的新框架,它能夠使大型語言模型自己模擬搜索引擎,從而在沒有實際搜索引擎的情況下,提升其推理能力。

傳統的搜索引擎雖然強大,但在訓練大模型時,它們的輸出質量常常不可預測,可能導致訓練過程中的噪聲和不穩定。此外,依賴真實搜索引擎的 API 調用會產生巨大的成本,這讓大規模的強化學習訓練變得不切實際。而 ZeroSearch 的出現,恰好解決了這些問題。這個框架通過模擬搜索環境和漸進式抗噪訓練,允許大模型在無需與真實搜索引擎交互的情況下進行學習。

通義 Qwen (4)

ZeroSearch 的核心是利用強化學習(RL)和少量的標註數據對大模型進行微調,使其能夠生成有用的文檔和干擾文檔。在訓練過程中,模型會學習如何生成與真實搜索引擎風格相似的內容,同時適應不同質量文檔的生成。這種動態調整的能力讓模型在面對更復雜的檢索任務時,能夠迅速適應並找到平衡。

此外,ZeroSearch 採用了課程式學習的方法。在訓練初期,模型會接收到高質量的文檔,而隨着訓練的深入,模型將逐步接觸到混入噪聲的文檔。這種逐步提升難度的策略,不僅提升了模型的推理能力,還增強了訓練的穩定性和效果。經過訓練,模型能夠在高質量和低質量文檔中找到最佳的檢索策略。

研究表明,ZeroSearch 在多個問答數據集上表現優異,尤其在單跳和多跳問答任務中,相較於傳統方法,它的表現有明顯優勢。這意味着 ZeroSearch 不僅在簡單問題上能提供準確答案,還能夠應對更復雜的查詢任務。

ZeroSearch 爲大模型的自我學習提供了全新的思路,消除了與搜索引擎之間的依賴,使得大規模的強化學習訓練更加經濟可行。未來,ZeroSearch 有望在提升 LLM 的檢索能力和應用範圍方面發揮更大作用。