最近,北京大學物理學院聯合多個院系,推出了一項名爲 “PHYBench” 的全新評測基準,旨在檢驗大模型在物理推理上的真實能力。該項目由朱華星老師和曹慶宏副院長主導,匯聚了來自物理學院和其他學科的200多名學生,其中不少人曾在全國中學生物理競賽中獲金牌。

PHYBench 設計了500道精心製作的高質量物理題,這些題目涵蓋高中物理、大學物理及物理奧林匹克競賽的各個層面。與傳統評測基準不同,PHYBench 不僅考察模型的答案是否正確,更引入了一種創新的評分方式 —— 表達式樹編輯距離(EED Score)。這一方法通過比較模型答案與正確答案的數學表達式結構,能夠更細緻地反映模型的推理能力。與依賴於簡單對錯的傳統評分方法相比,EED Score 提供了連續的分數,更能體現模型之間的差異。

物理原子3

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

在一場 “人機大戰” 中,81名北大學子與頂尖 AI 模型進行較量。結果顯示,最先進的 Gemini2.5pro 模型僅答對36.9% 的題目,而人類專家的平均正確率高達61.9%,顯示出人類在物理推理上的明顯優勢。PHYBench 的研究團隊對模型的錯誤進行了深入分析,將其推理過程分爲物理感知和魯棒推理兩個關鍵環節,揭示了現階段 AI 在物理推理中的瓶頸。

展望未來,PHYBench 的目標不僅是評估 AI 的物理理解能力,更希望引領 AI 在探索物理世界的潛力上取得突破。研究團隊計劃不斷擴展數據集,挑戰人類尚未解決的科學難題,推動 AI 系統朝着更高的認知能力發展。