近日,由全球超過50位物理學家聯合開發的 “CritPt” 基準測試,旨在評估頂尖 AI 模型在處理未公開的複雜物理研究問題時的能力。測試的目標是模擬早期博士研究生所需的獨立研究水平。儘管目前的 AI 系統如谷歌的 “Gemini3Pro” 和 OpenAI 的 “GPT-5” 被寄予厚望,但結果卻令人失望。

圖源備註:圖片由AI生成,圖片授權服務商Midjourney
在獨立評估中,Gemini3Pro 以9.1% 的準確率名列榜首,而 GPT-5則以4.9% 的成績緊隨其後。這一結果表明,即使是表現最好的模型,仍然無法解決大多數任務,特別是在涉及更復雜的研究挑戰時。CritPt 測試涵蓋了來自量子物理、天體物理、高能物理和生物物理等11個領域的71個研究挑戰。爲了防止模型簡單猜測或檢索,所有問題均基於未發表的研究內容。
測試團隊還採用了 “持續解決率” 這一更嚴格的評估標準,要求模型在五次嘗試中至少四次給出正確答案。結果顯示,所有模型的表現均大幅下滑,凸顯了它們在複雜問題上推理的脆弱性。這種不可靠性對研究工作流程造成了挑戰,模型常常會生成看似正確但實際卻含有細微錯誤的答案,這可能誤導研究人員並增加審覈工作的負擔。
研究團隊指出,當前大模型在獨立解決開放性物理問題方面尚顯不足,更爲現實的目標是將其視爲 “研究助手”,在特定的工作流程中提供幫助。與此相符的是,OpenAI 計劃在2026年9月推出一款研究實習生系統,並在2028年3月推出完全自主的研究系統。公司聲稱,GPT-5目前已經在幫助研究人員節省時間。
劃重點:
🌟 目前頂尖 AI 模型在複雜物理任務中的表現不盡如人意,最高僅達到9.1% 的準確率。
🔍 “CritPt” 基準測試涵蓋了多個物理領域,問題均爲未公開研究內容。
🤖 未來 AI 更可能作爲研究助手,而非完全替代人類專家,幫助自動化特定流程。
