隨着高考的到來,數學考試再一次成爲考生們心中的 “魔鬼”。在這場競爭中,六大人工智能模型也參與了挑戰,分別是字節的豆包、騰訊的元寶、阿里的通義、百度的文心 X1Turbo、深度求索的 DeepSeek 以及 OpenAI 的 o3。此次測試採用的是2025年新課標 Ⅰ 卷的14道客觀題,總分爲73分,涵蓋了單選題、多選題和填空題。

image.png

爲了確保測試的公平性,所有模型在答題時都沒有系統提示和聯網搜索的支持,每個模型只能進行一次答題。經過一番較量,最終結果出乎意料,豆包和元寶同以68分的成績並列第一,展現了出色的推理能力。相對而言,DeepSeek 和通義則稍顯遜色,分別以63分和62分完賽。而文心 X1和 o3的表現則令人失望,尤其是 o3,僅獲得34分,顯現出對國內高考題目的適應性不足。

image.png

在具體題型的表現上,豆包、通義和元寶在單選題的表現頗爲亮眼,各自得分35分。DeepSeek 因兩道題失誤拿下30分,而 o3則慘遭滑鐵盧,單選題的得分僅爲20分,錯了一半的題目。而在多選題方面,豆包、DeepSeek 和元寶均表現完美,三道題全對,展現出強大的穩定性。相對來說,通義的表現雖然快速,但在關鍵時刻的判斷失誤也導致得分不理想。

此次測試不僅顯示出各大 AI 模型在高考數學上的潛力和不足,也反映了它們在推理能力和反思能力上的進步。相較於去年,這些模型在細節處理、公式應用和邏輯推理上都有顯著的提升。儘管仍然存在一些錯誤和不足,但這次比賽無疑爲未來的 AI 數學能力打下了基礎。