在人工智能領域,隨着 OpenAI 的 o1和 DeepSeek 的 R1模型受到廣泛關注,大語言模型(LLM)的推理能力和測試時擴展(TTS)技術引發了衆多研究者的興趣。然而,在處理複雜推理問題時,如何準確評估模型每一步的回答質量,依然是一個亟待解決的難題。爲此,清華大學與上海 AI Lab 共同提出了生成式過程獎勵模型(GenPRM),爲過程監督推理提供了創新解決方案。
傳統的過程獎勵模型(PRM)雖然能夠驗證推理步驟的正確性,但由於採用了標量評分機制,難以捕捉深層次的邏輯錯誤。此外,PRM 的判別式建模方式也限制了其在測試階段的擴展能力。爲此,GenPRM 結合了生成式思維鏈推理和代碼驗證,並引入了測試時擴展機制,開闢了全新的研究方向。
圖源備註:圖片由AI生成,圖片授權服務商Midjourney
GenPRM 的設計理念模擬了人類解題時的思維過程,允許模型在每一步推理時進行自然語言分析,這樣不僅提高了透明性,還使得步驟評估更加可解釋。同時,GenPRM 生成並執行與推理相關的 Python 代碼,確保推理的可靠性。這種 “先解釋、再驗證” 的機制,不僅能夠判斷對錯,還能提供具體的改進建議,顯著提升了過程監督的效果。
令人驚訝的是,GenPRM 只用了23K 的訓練樣本,就取得了超過 GPT-4o 的優異表現。在 ProcessBench 等數學推理基準的測試中,1.5B 參數的 GenPRM 通過測試時擴展技術的加持,表現優異;而其7B 參數版本則成功超越了72B 參數的 Qwen2.5-Math-PRM,展現了強大的步驟級批評能力。
此外,GenPRM 的優勢還體現在其高效的數據合成方法上。通過相對進步估計(RPE)和代碼驗證,GenPRM 生成了高質量的過程監督數據,大幅減少了對大量標註數據的需求。研究者們利用 QwQ-32B 模型合成數據,並通過共識過濾保留高質量樣本,最終形成了這個僅有23K 的訓練集。
未來,GenPRM 不僅能作爲答案的驗證器,也能夠扮演 “教練” 的角色,通過反饋指導策略模型的迭代優化。這種 “生成 - 批評 - 反思” 的閉環爲大語言模型的自我改進提供了全新的路徑,未來也可能擴展到代碼生成和多模態推理等領域。
項目地址:https://ryanliu112.github.io/GenPRM/