最近,一項新研究令人振奮,證明了大型語言模型(LLM)可以通過搜索功能來顯著提升性能。特別是,參數量僅8億的 Llama3.1模型經過100次搜索,竟然在 Python 代碼生成的任務上與 GPT-4o 不相上下。

這個想法似乎讓人聯想到強化學習的先驅 Rich Sutton 在2019年的經典博文《The Bitter Lesson》。他提到,隨着計算能力的提升,我們需要認識到通用方法的威力。尤其是 “搜索” 和 “學習” 這兩種方法,似乎是可以持續擴展的絕佳選擇。

image.png

雖然 Sutton 強調了學習的重要性,即更大的模型通常能學習到更多的知識,但我們常常忽視了搜索在推理過程中的潛力。最近,斯坦福、牛津和 DeepMind 的研究者們發現,增加推理階段重複採樣次數,可以顯著提高模型在數學、推理和代碼生成等領域的表現。

在受到這些研究的啓發後,兩位工程師決定進行實驗。他們發現,使用100個小型的 Llama 模型進行搜索,可以在 Python 編程任務中超越甚至追平 GPT-4o。他們用生動的比喻形容道:“以前要一隻大馬才能實現某種能力,現在只需100只小鴨子就能完成同樣的事情。”

爲了實現更高的性能,他們利用 vLLM 庫進行批量推理,並在10個 A100-40GB GPU 上運行,輸出速度達到了驚人的40k tokens / 秒。作者選擇了 HumanEval 這個基準測試,因爲它能通過運行測試評估生成的代碼,更加客觀和準確。

image.png

根據報告,在零樣本推理中,GPT-4o 的 pass@1成績爲90.2%。而通過上述方法,Llama3.18B 的 pass@k 分數也顯著提升。重複採樣數爲100時,Llama 的成績達到了90.5%;當重複採樣數增加到1000時,成績則進一步提升至95.1%,明顯優於 GPT-4o。

值得一提的是,這個實驗雖然不是對原研究的嚴格復現,但強調了使用搜索方法增強推理階段時,較小模型也能在可預見的範圍內超越大型模型的可能性。

搜索之所以強大,是因爲它能夠隨着計算量的增加而 “透明” 地擴展,並將資源從內存轉移到計算,從而實現資源的平衡。最近,DeepMind 在數學領域取得了重要進展,證明了搜索的力量。

不過,搜索的成功首先需要對結果進行高質量的評估。DeepMind 的模型通過將自然語言表述的數學問題轉換爲形式化表述,實現了有效監督。而在其他領域,像 “總結電子郵件” 這樣的開放式 NLP 任務,進行有效搜索的難度則大得多。

這項研究表明,生成模型在特定領域的性能提升,與其評估和搜索能力切相關,未來的研究可以探索如何通過可重複的數字環境來提高這些能力。

論文地址:https://arxiv.org/pdf/2407.21787