近日,阿里巴巴 Qwen 團隊的研究人員推出了一個名爲 “PROCESSBENCH” 的新基準測試,旨在衡量語言模型在數學推理中識別過程錯誤的能力。隨着語言模型在複雜推理任務中取得顯著進展,這一領域的研究者們發現,儘管模型表現出色,但在處理某些困難問題時依然面臨挑戰。因此,開發一種有效的監督方法顯得尤爲重要。

當前,針對語言模型的評估基準存在一些不足之處。一方面,一些問題集對於高級模型而言變得過於簡單,另一方面,現有的評估方法往往只提供二元的正確性評估,而缺乏詳細的錯誤註釋。這一現象突顯了亟需更全面的評估框架,以更深入地考察複雜語言模型的推理機制。
爲了填補這一空白,研究人員設計了 “PROCESSBENCH”,該基準專注於識別數學推理中的錯誤步驟。它的設計原則包括問題難度、解決方案多樣性和全面評估。基準針對比賽和奧林匹克級別的數學問題,利用多個開源語言模型生成展示不同解題方法的解決方案。PROCESSBENCH 共包含3400個經過多位人類專家精心標註的測試案例,確保數據質量和評估的可靠性。

在開發過程中,研究團隊從四個知名數據集(GSM8K、MATH、OlympiadBench 和 Omni-MATH)收集數學問題,確保涵蓋從小學到競賽級別的廣泛難度。他們利用開源模型生成了多達12種不同的解決方案,以增加解決方案的多樣性。此外,爲了統一解決步驟的格式,團隊採用了重格式化方法,以確保邏輯上完整的逐步推理。
研究結果表明,現有的過程獎勵模型在應對高難度問題時表現不佳,特別是在較簡單的問題集上,提示驅動的評判模型表現更爲突出。研究揭示了現有模型在評估數學推理時的侷限性,特別是當模型通過錯誤的中間步驟達到正確答案時,難以準確判斷。
PROCESSBENCH 作爲評估語言模型識別數學推理錯誤能力的先鋒基準,爲未來的研究提供了重要的框架,推動了 AI 在推理過程中的理解和改進。
論文入口:https://github.com/QwenLM/ProcessBench?tab=readme-ov-file
代碼:https://github.com/QwenLM/ProcessBench?tab=readme-ov-file
劃重點:
🌟 研究團隊推出的新基準 “PROCESSBENCH” 旨在評估語言模型識別數學推理中的錯誤能力。
📊 PROCESSBENCH 包含3400個測試案例,涵蓋多種難度的數學問題,並經過專家精心標註。
🔍 研究發現,現有的過程獎勵模型在高難度問題上表現不佳,亟需改進其錯誤識別策略。
