2025年4月3日消息:根據MathArena最新發佈的大語言模型數學能力評測結果顯示,Google的Gemini-2.5-pro以絕對優勢領跑,在未污染的高難度數學競賽中展現出令人矚目的表現。

QQ_1743659809882.png

突破性成績

Gemini-2.5-pro在MathArena平臺的嚴格評測中取得了24.40%的準確率,這一成績不僅位居榜首,更是與第二名DeepSeek-R1 的4.76%形成鮮明對比,領先優勢達到驚人的五倍之多。這一突破性成績表明Gemini-2.5-pro在高級數學推理能力上實現了質的飛躍。

多項競賽中的優異表現

特別值得關注的是,Gemini-2.5-pro在"AIME 2025 I"競賽測試中取得了93%的驚人成績,這是一項公認的高難度數學競賽。同時,它在"USAMO 2025"中也達到了50%的表現,足以證明其解決超高難度數學問題的能力。

技術意義

MathArena評測的特殊性在於其嚴格性和公正性,僅使用模型發佈後的數學競賽題目進行測試,確保模型無法通過預訓練材料獲得優勢。在這樣的嚴苛條件下,Gemini-2.5-pro仍能保持如此高的成功率,反映了Google在大模型數學推理能力上的重大突破。

行業影響

Gemini-2.5-pro的卓越表現不僅證明了大語言模型在高級數學思維方面的巨大潛力,也爲AI輔助教育、科研和複雜問題求解開闢了新的可能性。這一成績也將進一步推動AI行業在推理能力和專業領域應用方面的競爭與創新。

對比其他模型如Claude-3.7-Sonnet (Think)的3.65%和o1-pro (high)的2.83%的準確率,Gemini-2.5-pro的領先優勢更加突出,標誌着大語言模型數學能力發展可能已進入新階段。

數據來源:https://matharena.ai/