隨着OpenAI的GPT-4在傳統數學評測中屢創佳績,北京大學和阿里巴巴的研究團隊聯手推出了一個全新的評測基準——Omni-MATH,旨在評估大型語言模型在奧林匹克數學競賽級別的推理能力。這一舉措不僅爲AI數學能力的評估提供了新標準,也爲探索AI在高級數學領域的潛力開闢了新途徑。

Omni-MATH的獨特設計
Omni-MATH評測庫包含4428道競賽級別的數學問題,涵蓋33個以上的數學子領域,難度分爲10個不同級別。其特點包括:
高可靠性:所有題目均來自各種數學競賽和論壇,答案經過人工驗證。
廣泛覆蓋:從奧林匹克預備級別(T4)到頂級奧林匹克數學競賽(T0),如IMO、IMC和普特南等。
多樣性考慮:通過基於GPT-4和其他評測模型的評價方式,優化了答案多樣性的問題。
在最新的排行榜上,除GPT-4滿血版外,表現突出的包括:
GPT-4-mini:平均分比GPT-4-preview高出約8%
Qwen2-MATH-72b:超過了GPT-4-turbo的成績
這些結果顯示,即使是小型模型,在特定能力上也可能有出色表現。
評測體系的深度與廣度
Omni-MATH的設計充分考慮了國際數學競賽的選拔流程和難度層級:
參考英國和美國等國家的奧數選拔體系
涵蓋從數論、代數到幾何等多個數學領域
數據來源包括各類比賽題目、解析和著名數學網站的論壇內容
創新的評測方法
研究團隊開發了Omni-Judge開源答案驗證器,利用微調過的Llama3-Instruct模型,能快速判斷模型輸出與標準答案的一致性。這種方法在保證95%一致率的同時,也爲複雜數學問題的評測提供了便捷解決方案。
Omni-MATH的推出不僅是對AI數學能力的全新挑戰,也爲未來AI在高級數學領域的應用和發展提供了重要的評估工具。隨着AI技術的不斷進步,我們或許能在不久的將來,見證AI在奧林匹克數學競賽中的驚人表現。
項目地址:https://github.com/KbsdJames/Omni-MATH/
