北大阿里聯手推出Omni-MATH：AI數學能力的終極挑戰

隨着OpenAI的GPT-4在傳統數學評測中屢創佳績，北京大學和阿里巴巴的研究團隊聯手推出了一個全新的評測基準——Omni-MATH，旨在評估大型語言模型在奧林匹克數學競賽級別的推理能力。這一舉措不僅爲AI數學能力的評估提供了新標準，也爲探索AI在高級數學領域的潛力開闢了新途徑。

Omni-MATH的獨特設計

Omni-MATH評測庫包含4428道競賽級別的數學問題，涵蓋33個以上的數學子領域，難度分爲10個不同級別。其特點包括:

高可靠性:所有題目均來自各種數學競賽和論壇，答案經過人工驗證。

廣泛覆蓋:從奧林匹克預備級別（T4）到頂級奧林匹克數學競賽(T0)，如IMO、IMC和普特南等。

多樣性考慮:通過基於GPT-4和其他評測模型的評價方式，優化了答案多樣性的問題。

在最新的排行榜上，除GPT-4滿血版外，表現突出的包括:

GPT-4-mini:平均分比GPT-4-preview高出約8%

Qwen2-MATH-72b:超過了GPT-4-turbo的成績

這些結果顯示，即使是小型模型，在特定能力上也可能有出色表現。

評測體系的深度與廣度

Omni-MATH的設計充分考慮了國際數學競賽的選拔流程和難度層級:

參考英國和美國等國家的奧數選拔體系

涵蓋從數論、代數到幾何等多個數學領域

數據來源包括各類比賽題目、解析和著名數學網站的論壇內容

創新的評測方法

研究團隊開發了Omni-Judge開源答案驗證器，利用微調過的Llama3-Instruct模型，能快速判斷模型輸出與標準答案的一致性。這種方法在保證95%一致率的同時，也爲複雜數學問題的評測提供了便捷解決方案。

Omni-MATH的推出不僅是對AI數學能力的全新挑戰，也爲未來AI在高級數學領域的應用和發展提供了重要的評估工具。隨着AI技術的不斷進步，我們或許能在不久的將來，見證AI在奧林匹克數學競賽中的驚人表現。

項目地址：https://github.com/KbsdJames/Omni-MATH/

微博開源Vibe Thinker：15億參數擊敗DeepSeek R1，後訓練成本僅7800美元

微博推出開源大模型Vibe Thinker，僅15億參數卻在數學競賽基準測試中擊敗6710億參數的DeepSeek R1，準確率更高且訓練成本僅7800美元。採用輕量化MoE架構與知識蒸餾技術，僅需5GB數學語料即可微調，支持Hugging Face下載和商用。該模型在AIME等國際數學競賽中表現優異。

OpenAI 被指 “暗箱操作”，付費用戶遭遇模型降級

OpenAI近日因祕密切換模型引發爭議。付費用戶反映，在未獲通知的情況下，其GPT-4/5被自動替換爲低算力過濾模型gpt-5-chat-safety和gpt-5-a-t-mini，尤其在涉及敏感內容時響應質量驟降。此舉遭用戶質疑侵犯選擇權與知情權，凸顯平臺透明度不足的問題。

AI 逆襲：大型語言模型助力癌症新藥研發，竟然能 “發明” 療法！

近日，一項來自劍橋大學等機構的研究成果引發了廣泛關注:大型語言模型（LLMs）不僅在自然語言處理領域嶄露頭角，還能爲癌症治療帶來新的希望。研究人員利用 GPT-4模型，首次嘗試將其作爲科學假說的生成工具，在乳腺癌的藥物研發上取得了令人振奮的進展。在這項研究中，團隊的目標是找到能夠有效對抗乳腺癌的新藥物組合。他們從 FDA 批准的非抗癌藥物中篩選出可能具有協同作用的藥物，設定了三項關鍵原則:避免標準抗癌藥物，專注於能夠靶向癌細胞且不損傷健康細胞的藥物，同

北大阿里聯手推出Omni-MATH：AI數學能力的終極挑戰

相關推薦

OpenAI 心理安全負責人離職:跳槽對手 Anthropic，繼續死磕 AI 倫理難題

微博開源Vibe Thinker：15億參數擊敗DeepSeek R1，後訓練成本僅7800美元

AI 模型用兩本書生成名家風格作品，引發版權法新討論

OpenAI 被指 “暗箱操作”，付費用戶遭遇模型降級

AI 逆襲：大型語言模型助力癌症新藥研發，竟然能 “發明” 療法！

北大阿里聯手推出Omni-MATH：AI數學能力的終極挑戰

相關推薦

​OpenAI 心理安全負責人離職:跳槽對手 Anthropic，繼續死磕 AI 倫理難題

微博開源Vibe Thinker：15億參數擊敗DeepSeek R1，後訓練成本僅7800美元

AI 模型用兩本書生成名家風格作品，引發版權法新討論

OpenAI 被指 “暗箱操作”，付費用戶遭遇模型降級

AI 逆襲：大型語言模型助力癌症新藥研發，竟然能 “發明” 療法！

OpenAI 心理安全負責人離職:跳槽對手 Anthropic，繼續死磕 AI 倫理難題