今天,阿里雲通義團隊正式發佈了全新的數學推理過程獎勵模型 Qwen2.5-Math-PRM。該模型提供了72B 和7B 兩種尺寸,性能表現均顯著優於同類的開源過程獎勵模型,尤其是在識別推理錯誤方面表現突出。
Qwen2.5-Math-PRM 的7B 版本令人驚訝地超越了業界廣受歡迎的 GPT-4o,這一成就標誌着阿里雲在推理模型的研發上邁出了重要的一步。爲了全面評估模型在數學推理中的表現,通義團隊還開源了首個步驟級的評估標準 ——ProcessBench。這個評估標準涵蓋了3400個數學問題測試案例,其中還包括國際奧林匹克數學競賽的難度題目,每個案例均由人類專家標註了詳細的推理過程,確保評估的科學性和全面性。

通過對 Qwen2.5-Math-PRM 在 ProcessBench 上的表現評估,研究團隊發現,不論是72B 還是7B 尺寸的模型,均表現出色。特別是7B 版本,不僅超越了同尺寸的開源模型,甚至在某些方面還超過了閉源的 GPT-4o-0806。這證明了過程獎勵模型(PRM)在提高推理可靠性方面的巨大潛力,併爲未來推理過程監督技術的發展提供了新的思路。

阿里雲通義團隊的這項創新性工作,不僅推動了人工智能推理技術的進步,也爲行業內其他開發者提供了寶貴的參考。通過開源的方式,通義團隊希望能夠與更多研究者共享經驗,推動整個行業的技術進步。
