首個AI高考評測結果發佈 GPT-4o拿下第二名

在人工智能的世界裏，高考不再只是人類的舞臺。最近，上海人工智能實驗室用一場別開生面的“高考”，讓我們見證了AI的學術實力。他們採用了OpenCompass評測體系，讓包括GPT-4o在內的7個AI模型，接受了語文、數學和英語的全面能力測試。

2_1718848649312_ai2023_A_large_classroom_filled_with_rows_of_robots_sitting_at__db532bea-895e-4609-b80c-5fedf4ecf846.png

圖源備註：圖片由AI生成，圖片授權服務商Midjourney

這場測試採用的是全國新課標I卷，確保了所有參與的開源模型都是在高考前就已經開源，保證了測試的公正性。而且，這些AI的“答卷”是由有高考評卷經驗的教師人工評判的，力求接近真實的閱卷標準。

參與評測的模型來自不同的背景，有法國AI創業公司Mistral開源的Mixtral8x22B對話模型，零一萬物公司的Yi-1.5-34B，智譜AI的GLM-4-9B，上海人工智能實驗室的InternLM2-20B-WQX，以及阿里巴巴的Qwen2系列。GPT-4o作爲閉源模型參與評測，僅作爲參考。

成績揭曉，Qwen2-72B以303分的總分位列第一，GPT-4o以296分緊隨其後，InternLM2-20B-WQX則以295.5分位列第三。這些模型在語文和英語科目上表現不俗，語文平均得分率達到了67%，英語更是高達81%。然而，在數學科目上，所有模型的平均得分率僅爲36%，顯示出AI在數學推理方面還有很大的提升空間。

閱卷教師對AI模型的答卷進行了全面分析。在語文科目中，模型們普遍閱讀理解現代文較爲得心應手，但在文言文和作文上則稍顯不足。數學方面，模型們的公式記憶能力雖強，但在解題過程中的靈活運用上還有欠缺。英語科目整體表現良好，但在某些題型上，部分模型的得分率較低。

這次“大模型高考”不僅讓我們看到了AI在學術領域的潛力，也揭示了它們在理解和應用知識上的侷限性。隨着技術的不斷進步，我們有理由相信，未來的AI將變得更加聰明，更好地服務於人類社會。

首個AI高考評測結果發佈 GPT-4o拿下第二名

相關推薦

OpenAI 確定英國永久總部：2027 年啓用，可容納超 500 名員工

日本 Rapidus 正式啓用 10 倍 AI 芯片生產效率封裝線，力爭趕超臺積電

Meta 全新 AI 計劃：打造數字版扎克伯格，與員工互動

榮耀發佈預製龍蝦AI智能體技術YOYO Claw

OpenAI CEO 山姆・奧特曼家中接連遭襲，警方已逮捕三名嫌疑人

首個AI高考評測結果發佈 GPT-4o拿下第二名

相關推薦

OpenAI 確定英國永久總部：2027 年啓用，可容納超 500 名員工

日本 Rapidus 正式啓用 10 倍 AI 芯片生產效率封裝線，力爭趕超臺積電

​Meta 全新 AI 計劃：打造數字版扎克伯格，與員工互動

榮耀發佈預製龍蝦AI智能體技術YOYO Claw

​OpenAI CEO 山姆・奧特曼家中接連遭襲，警方已逮捕三名嫌疑人

Meta 全新 AI 計劃：打造數字版扎克伯格，與員工互動

OpenAI CEO 山姆・奧特曼家中接連遭襲，警方已逮捕三名嫌疑人