Gemini-2.5-pro在MathArena評測中展現卓越數學能力遠超其他模型

2025年4月3日消息：根據MathArena最新發佈的大語言模型數學能力評測結果顯示，Google的Gemini-2.5-pro以絕對優勢領跑，在未污染的高難度數學競賽中展現出令人矚目的表現。

突破性成績

Gemini-2.5-pro在MathArena平臺的嚴格評測中取得了24.40%的準確率，這一成績不僅位居榜首，更是與第二名DeepSeek-R1 的4.76%形成鮮明對比，領先優勢達到驚人的五倍之多。這一突破性成績表明Gemini-2.5-pro在高級數學推理能力上實現了質的飛躍。

多項競賽中的優異表現

特別值得關注的是，Gemini-2.5-pro在"AIME 2025 I"競賽測試中取得了93%的驚人成績，這是一項公認的高難度數學競賽。同時，它在"USAMO 2025"中也達到了50%的表現，足以證明其解決超高難度數學問題的能力。

技術意義

MathArena評測的特殊性在於其嚴格性和公正性，僅使用模型發佈後的數學競賽題目進行測試，確保模型無法通過預訓練材料獲得優勢。在這樣的嚴苛條件下，Gemini-2.5-pro仍能保持如此高的成功率，反映了Google在大模型數學推理能力上的重大突破。

行業影響

Gemini-2.5-pro的卓越表現不僅證明了大語言模型在高級數學思維方面的巨大潛力，也爲AI輔助教育、科研和複雜問題求解開闢了新的可能性。這一成績也將進一步推動AI行業在推理能力和專業領域應用方面的競爭與創新。

對比其他模型如Claude-3.7-Sonnet (Think)的3.65%和o1-pro (high)的2.83%的準確率，Gemini-2.5-pro的領先優勢更加突出，標誌着大語言模型數學能力發展可能已進入新階段。

數據來源：https://matharena.ai/

美團闢謠LongCat模型負責人離職，持續推進國產算力萬億大模型落地

美團7月27日否認LongCat團隊基礎模型負責人裴鵬離職傳聞，稱消息不實。裴鵬畢業於北大，2023年加入美團，先後任基座模型預訓練負責人及LongCat基礎模型負責人，全面主導大語言模型、多模態模型與Agent智能體的研發，並牽頭萬億參數大模型LongCat-2.0的研發與落地。

騰訊混元"合二爲一"：多模態與大語言模型部門合併，姚順雨統管衝全模態上限

據7月24日報道，騰訊於7月23日宣佈將混元多模態模型部門與大語言模型部門合併，組建基礎模型部，由首席AI科學家姚順雨統率。此舉旨在提升研發與協同效率，全力衝刺全模態模型的智能上限。整合早有伏筆，去年12月姚順雨已接管大語言模型團隊，如今雙邊歸一，意味着騰訊集中資源推動多模態與語言深度融合，加速構建新一代統一基礎模型，向全模態智能更高峯邁進。

Epoch AI測試三大AI文本檢測器:模仿人類文風后最高近三成內容漏檢

Epoch AI研究顯示，主流AI文本檢測器能近乎完美識別普通AI生成內容，但當大語言模型刻意模仿特定作者寫作風格時，準確率明顯下降，科學寫作最難辨別。實驗測試了Pangram、GPTZero和Originality.ai三款工具，採用495篇涵蓋博客、小說、科學的人類原創文本（均創作於ChatGPT問世前），發現風格模仿可有效逃逸檢測。

Gemini-2.5-pro在MathArena評測中展現卓越數學能力遠超其他模型

突破性成績

多項競賽中的優異表現

技術意義

行業影響

相關推薦

美團闢謠LongCat模型負責人離職，持續推進國產算力萬億大模型落地

騰訊混元"合二爲一"：多模態與大語言模型部門合併，姚順雨統管衝全模態上限

Epoch AI測試三大AI文本檢測器:模仿人類文風后最高近三成內容漏檢

OpenAI人才流動：前研究員田永龍入職騰訊，深耕視覺語言模型研發

以 AI 治理 AI：Reddit 升級自動化系統，日均攔截 2300 萬條垃圾信息

Gemini-2.5-pro在MathArena評測中展現卓越數學能力 遠超其他模型

突破性成績

多項競賽中的優異表現

技術意義

行業影響

相關推薦

美團闢謠LongCat模型負責人離職，持續推進國產算力萬億大模型落地

騰訊混元"合二爲一"：多模態與大語言模型部門合併，姚順雨統管衝全模態上限

Epoch AI測試三大AI文本檢測器:模仿人類文風后最高近三成內容漏檢

OpenAI人才流動：前研究員田永龍入職騰訊，深耕視覺語言模型研發

以 AI 治理 AI：Reddit 升級自動化系統，日均攔截 2300 萬條垃圾信息

Gemini-2.5-pro在MathArena評測中展現卓越數學能力遠超其他模型