最近,谷歌 DeepMind 的研究團隊聯合多所高校提出了一種新方法,名爲生成獎勵模型(GenRM),旨在提升生成式 AI 在推理任務中的準確性和可靠性。

生成式 AI 被廣泛應用於自然語言處理等多個領域,主要通過預測一系列詞彙的下一個詞來生成連貫的文本。然而,這些模型有時會自信地輸出錯誤的信息,尤其在教育、金融和醫療等對準確性要求極高的領域,這無疑是個大問題。

image.png

目前,針對生成式 AI 模型在輸出準確性上遇到的困難,研究人員嘗試了不同的解決方案。其中,判別式獎勵模型(RMs)被用來根據分數判斷潛在答案的正確與否,但這種方法未能充分利用大型語言模型(LLMs)的生成能力。而另一個常用的方法是 “LLM 作爲評判者”,但這種方法在解決複雜的推理任務時,效果往往不如專業的驗證器。

image.png

GenRM 的創新之處在於將驗證過程重新定義爲下一個詞預測任務。這意味着,與傳統的判別式獎勵模型不同,GenRM 將 LLMs 的文本生成能力融入到驗證過程中,使得模型能夠同時生成和評估潛在的解決方案。此外,GenRM 還支持鏈式推理(CoT),即模型在得出最終結論之前,可以生成中間的推理步驟,從而使驗證過程更加全面和系統。

通過將生成與驗證結合起來,GenRM 方法採用了一種統一的訓練策略,使得模型能夠在訓練過程中同時提升生成和驗證能力。在實際應用中,模型會生成中間推理步驟,這些步驟用於驗證最終答案。

研究人員發現,GenRM 模型在多個嚴謹測試中表現優異,例如在學齡前數學和算法問題解決任務中,GenRM 的準確率顯著提高。與判別式獎勵模型和 LLM 作爲評判者的方法相比,GenRM 的解決問題成功率提高了16%到64%。

例如,在驗證 Gemini1.0Pro 模型的輸出時,GenRM 將問題解決成功率從73% 提升到了92.8%。

image.png

GenRM 方法的推出標誌着生成式 AI 領域的一大進步,通過將解決方案生成與驗證統一爲一個過程,顯著提高了 AI 生成解決方案的準確性和可信賴性。

劃重點:

1. 🌟 GenRM 通過將驗證過程重新定義爲下一個詞預測任務,提高了生成式 AI 的推理能力。

2. 📈 GenRM 在多個測試中表現優異,準確率比傳統方法提高了16% 到64%。

3. 🧠 該方法整合了生成與驗證,提升 AI 在高風險領域的應用潛力。