隨着OpenAI的GPT-4在傳統數學評測中屢創佳績,北京大學和阿里巴巴的研究團隊聯手推出了一個全新的評測基準——Omni-MATH,旨在評估大型語言模型在奧林匹克數學競賽級別的推理能力。這一舉措不僅爲AI數學能力的評估提供了新標準,也爲探索AI在高級數學領域的潛力開闢了新途徑。

image.png

Omni-MATH的獨特設計

Omni-MATH評測庫包含4428道競賽級別的數學問題,涵蓋33個以上的數學子領域,難度分爲10個不同級別。其特點包括:

高可靠性:所有題目均來自各種數學競賽和論壇,答案經過人工驗證。

廣泛覆蓋:從奧林匹克預備級別(T4)到頂級奧林匹克數學競賽(T0),如IMO、IMC和普特南等。

多樣性考慮:通過基於GPT-4和其他評測模型的評價方式,優化了答案多樣性的問題。

最新的排行榜上,除GPT-4滿血版外,表現突出的包括:

GPT-4-mini:平均分比GPT-4-preview高出約8%

Qwen2-MATH-72b:超過了GPT-4-turbo的成績

這些結果顯示,即使是小型模型,在特定能力上也可能有出色表現。

評測體系的深度與廣度

Omni-MATH的設計充分考慮了國際數學競賽的選拔流程和難度層級:

參考英國和美國等國家的奧數選拔體系

涵蓋從數論、代數到幾何等多個數學領域

數據來源包括各類比賽題目、解析和著名數學網站的論壇內容

創新的評測方法

研究團隊開發了Omni-Judge開源答案驗證器,利用微調過的Llama3-Instruct模型,能快速判斷模型輸出與標準答案的一致性。這種方法在保證95%一致率的同時,也爲複雜數學問題的評測提供了便捷解決方案。

Omni-MATH的推出不僅是對AI數學能力的全新挑戰,也爲未來AI在高級數學領域的應用和發展提供了重要的評估工具。隨着AI技術的不斷進步,我們或許能在不久的將來,見證AI在奧林匹克數學競賽中的驚人表現。

項目地址:https://github.com/KbsdJames/Omni-MATH/