阿里巴巴 Qwen 團隊近日發佈了題爲《數學推理中過程獎勵模型的開發經驗教訓》的論文,並推出了 Qwen2.5-Math-PRM 系列中的兩個新模型,分別具有7B 和72B 參數。這些模型在數學推理中突破了現有 PRM 框架的限制,通過創新技術顯著提高了推理模型的準確性和泛化能力。

數學推理一直是大型語言模型(LLM)面臨的重大挑戰,尤其是在中間推理步驟中,錯誤往往會影響最終輸出的準確性,這對於教育、科學計算等對精確度要求高的領域尤其成問題。傳統評估方法,如 Best-of-N(BoN)策略,無法充分捕捉推理過程的複雜性,因此,過程獎勵模型(PRM)應運而生,旨在通過評估中間步驟的正確性來提供更詳細的監督。

然而,構建高效的 PRM 面臨數據註釋和評估方法上的挑戰,這也是現有模型無法完全解決的難題。因此,需要一種更符合穩健、過程驅動推理的模型。

QQ20250116-104124.png

Qwen 團隊的創新方法結合了蒙特卡洛(MC)估計和“LLM 作爲判斷”的機制。該混合方法提高了分步註釋的質量,使得 PRM 能夠更有效地識別並減輕數學推理中的錯誤。通過這一技術,Qwen2.5-Math-PRM 系列的模型在 PROCESSBENCH 等基準測試中表現出色,特別是在找出中間推理錯誤的能力上。

共識過濾:僅當 MC 估計和 LLM 作爲判斷者都同意步驟正確性時,才保留數據,從而顯著減少訓練中的噪音。硬標記:經過雙重機制驗證的確定性標籤增強了模型區分有效和無效推理步驟的能力。高效數據利用:將 MC 估計與 LLM 作爲判斷相結合的共識過濾策略,確保了高質量的數據,並保持了可擴展性。

這些創新幫助 Qwen2.5-Math-PRM 模型不僅提高了準確性,還增強了其在自動輔導和複雜問題解決等應用中的表現。

Qwen2.5-Math-PRM 系列在多個評估指標上表現優異。例如,Qwen2.5-Math-PRM-72B 模型的 F1得分高達78.3%,超過了許多開源替代品。特別是在需要逐步識別錯誤的任務中,它的表現優於 GPT-4-0806等專有模型。

共識過濾機制有效降低了數據噪聲約60%,顯著提高了訓練數據的質量。此外,Qwen2.5-Math-PRM 強調分步評估,而非傳統的基於結果的 BoN 策略,這解決了早期模型通常過於依賴最終答案而忽視推理準確性的問題。

Qwen2.5-Math-PRM 系列的推出標誌着數學推理領域的重大進步。通過解決 PRM 開發中的難題,如數據註釋的噪聲和過程到結果的偏差,Qwen 團隊提供了一個提高推理準確性和可靠性的實用框架。隨着該技術的不斷髮展,預計未來 PRM 模型將在更廣泛的 AI 應用中發揮重要作用,提升機器推理系統的可靠性和有效性。