阿里雲發佈全新數學推理模型Qwen2.5-Math-PRM，7B 版本超越 GPT-4o

今天，阿里雲通義團隊正式發佈了全新的數學推理過程獎勵模型 Qwen2.5-Math-PRM。該模型提供了72B 和7B 兩種尺寸，性能表現均顯著優於同類的開源過程獎勵模型，尤其是在識別推理錯誤方面表現突出。

Qwen2.5-Math-PRM 的7B 版本令人驚訝地超越了業界廣受歡迎的 GPT-4o，這一成就標誌着阿里雲在推理模型的研發上邁出了重要的一步。爲了全面評估模型在數學推理中的表現，通義團隊還開源了首個步驟級的評估標準 ——ProcessBench。這個評估標準涵蓋了3400個數學問題測試案例，其中還包括國際奧林匹克數學競賽的難度題目，每個案例均由人類專家標註了詳細的推理過程，確保評估的科學性和全面性。

通過對 Qwen2.5-Math-PRM 在 ProcessBench 上的表現評估，研究團隊發現，不論是72B 還是7B 尺寸的模型，均表現出色。特別是7B 版本，不僅超越了同尺寸的開源模型，甚至在某些方面還超過了閉源的 GPT-4o-0806。這證明了過程獎勵模型（PRM）在提高推理可靠性方面的巨大潛力，併爲未來推理過程監督技術的發展提供了新的思路。

阿里雲通義團隊的這項創新性工作，不僅推動了人工智能推理技術的進步，也爲行業內其他開發者提供了寶貴的參考。通過開源的方式，通義團隊希望能夠與更多研究者共享經驗，推動整個行業的技術進步。

阿里雲發佈開源工具Meoo CLI:支持本地AI項目一鍵上線部署

阿里雲於6月11日發佈開源命令行工具Meoo CLI，旨在降低開發者構建AI原生應用的門檻。該工具深度適配Claude Code、Codex、Cursor等主流本地AI編程環境，通過無縫調用雲端基礎設施，實現數據庫接入、用戶登錄、文件存儲及項目部署的一體化配置。開發者只需簡單指令，即可將AI生成的本地項目直接部署上線，簡化了從代碼構建到發佈的全流程。

阿里Qoder推出全託管平臺Cloud Agents，實現AI Agent一天內快速上線

阿里雲於2026年5月28日推出全託管AI Agent平臺Cloud Agents，提供從底座到運行環境的全棧能力，企業通過API即可調用。該平臺將Agent開發週期從1個月縮短至1天，加速AI原生應用滲透。當前通用Agent工具雖提升個人效率，但底層基礎設施如推理引擎、運行沙箱等仍需完善。

阿里雲發佈全新數學推理模型Qwen2.5-Math-PRM，7B 版本超越 GPT-4o

相關推薦

阿里雲QoderWork推出“峯谷Token”:錯峯調用Qwen3.7-Max低至2折

打通AI應用“最後一公里”：阿里雲秒悟Meoo CLI正式開源

一鍵部署上線：阿里雲發佈秒悟 Meoo CLI 開源工具

阿里雲發佈開源工具Meoo CLI:支持本地AI項目一鍵上線部署

阿里Qoder推出全託管平臺Cloud Agents，實現AI Agent一天內快速上線