高考數學大賽：六大AI模型爭鋒，豆包與元寶雙雙奪冠

隨着高考的到來，數學考試再一次成爲考生們心中的 “魔鬼”。在這場競爭中，六大人工智能模型也參與了挑戰，分別是字節的豆包、騰訊的元寶、阿里的通義、百度的文心 X1Turbo、深度求索的 DeepSeek 以及 OpenAI 的 o3。此次測試採用的是2025年新課標 Ⅰ 卷的14道客觀題，總分爲73分，涵蓋了單選題、多選題和填空題。

爲了確保測試的公平性，所有模型在答題時都沒有系統提示和聯網搜索的支持，每個模型只能進行一次答題。經過一番較量，最終結果出乎意料，豆包和元寶同以68分的成績並列第一，展現了出色的推理能力。相對而言，DeepSeek 和通義則稍顯遜色，分別以63分和62分完賽。而文心 X1和 o3的表現則令人失望，尤其是 o3，僅獲得34分，顯現出對國內高考題目的適應性不足。

在具體題型的表現上，豆包、通義和元寶在單選題的表現頗爲亮眼，各自得分35分。DeepSeek 因兩道題失誤拿下30分，而 o3則慘遭滑鐵盧，單選題的得分僅爲20分，錯了一半的題目。而在多選題方面，豆包、DeepSeek 和元寶均表現完美，三道題全對，展現出強大的穩定性。相對來說，通義的表現雖然快速，但在關鍵時刻的判斷失誤也導致得分不理想。

此次測試不僅顯示出各大 AI 模型在高考數學上的潛力和不足，也反映了它們在推理能力和反思能力上的進步。相較於去年，這些模型在細節處理、公式應用和邏輯推理上都有顯著的提升。儘管仍然存在一些錯誤和不足，但這次比賽無疑爲未來的 AI 數學能力打下了基礎。

豆包千問同日下線智能體功能，國內首部AI擬人化互動服務新規今起正式施行

字節跳動豆包、阿里通義千問今日下線智能體功能，用戶無法新建或調用。下線日恰逢《人工智能擬人化互動服務管理暫行辦法》施行。該辦法由五部門聯合發佈，系我國首部專門立法，不搞“一刀切”，重點盯防虛擬伴侶等擬人化互動。

豆包、通義千問雙雙下線"AI擬人化"功能： 7 月 15 日新規落地，行業集體收縮

《人工智能擬人化互動服務管理暫行辦法》7月15日生效，字節跳動“豆包”與阿里“通義千問”率先響應，即將下線自定義擬人化代理功能。豆包已通知用戶，該功能自7月15日起下線，10月15日起徹底停用相關服務，成爲新規下首批調整的頭部AI應用。

高考數學大賽：六大AI模型爭鋒，豆包與元寶雙雙奪冠

相關推薦

豆包千問同日下線智能體功能，國內首部AI擬人化互動服務新規今起正式施行

QuestMobile六月AI原生App月活榜：豆包3. 8 億斷層第一，千問增速暴漲近 58 倍

抖音電商將豆包納入抖店結算序列，GEO全面進入成交歸因時代

法律金融行業迎“新援”：SpaceX AI聯合Cursor推出Grok 4.5

豆包、通義千問雙雙下線"AI擬人化"功能： 7 月 15 日新規落地，行業集體收縮