在2024年的高考季,九款AI大模型勇敢地迎接了一項前所未有的挑戰——參加高考,特別是難度極高的新課標Ⅰ卷:河南卷。這場由媒體發起的測試,不僅檢驗了AI在學術領域的能力,也爲我們提供了一個觀察AI與人類智能差異的獨特視角。

在參與測試的9個AI中,有4個AI的成績超過了河南高考的一本線。GPT-4o以562分的高分奪得第一名,超過了一本線41分,而字節跳動的豆包以542.5分緊隨其後,成爲國內模型中的佼佼者。

圖源備註:圖片由AI生成,圖片授權服務商Midjourney
AI在文科科目中表現出色,尤其是在語文和英語科目上,而在理科科目,尤其是數學上,表現則不盡如人意。可以看到AI在語言類科目上展現出了明顯的優勢,古詩文理解能力令人印象深刻。
在簡單推理題上AI表現尚可,但在需要複雜推導和證明的題目上則表現不佳,顯示出邏輯能力有待提高。在文綜中,地理科目表現最差,而在理綜中,生物科目表現相對較好。GPT-4o在政治科目上以91.5分的高分表現突出。
測試方式與評分標準
測試輪次:爲了減少隨機性的影響,所有科目進行了兩輪測試,並取平均分作爲最終成績。
輸入格式:公式採用Markdown/LaTeX格式輸入,圖像問題根據模型的識別能力輸入相應的圖片和文字。
測試操作:由專業的AI數據服務商進行統一規範的測試截圖,確保了測試的公正性。
判分方式:與人類考生採用統一的評分標準,確保了評分的公平性。
這次AI參加高考的嘗試,不僅展示了AI在特定領域的優勢,也暴露了在邏輯推理和數學證明方面的不足。正如一位AI考生在作文中所引用的:“路漫漫其修遠兮,吾將上下而求索。”這不僅是AI發展的寫照,也是對人類不斷探索未知世界的生動描述。通過這次測試,我們對AI的智力水平有了更深入的瞭解,也爲AI未來的發展方向提供了寶貴的參考。
考生名單包括了來自OpenAI的GPT-4o、字節跳動的豆包、百度的文心4.0等知名AI產品,它們在這次高考中的表現,無疑將對AI技術的發展產生深遠的影響。
