據 AIbase 報道,一項名爲“CritPt”的全新物理基準測試結果顯示,即使是目前最頂尖的人工智能模型,如 Gemini3Pro 和 GPT-5,距離成爲真正的自主科學家仍有巨大的差距。該基準測試旨在將領先的 AI 模型置於博士早期研究水平進行嚴苛考覈。

CritPt:檢驗 AI 的科研實戰能力

“CritPt”由來自全球30多個機構的50多位物理學家共同構建。其核心目標遠超對教科書知識的記憶檢驗,而是旨在測試 AI 是否具備解決原創性、未發表研究問題的能力——這相當於一位能力出衆的物理學研究生的獨立工作水平。

爲了確保測試的嚴謹性並防止作弊,CritPt 包含的71個完整研究挑戰全部基於未發表的資料,涵蓋量子物理、天體物理、高能物理和生物物理等11個前沿領域。研究團隊還將這些挑戰進一步細分爲190個較小的“檢查點”,以衡量模型在解決複雜問題過程中的階段性進展。

機器人 人工智能 AI (4)

令人警醒的初步結果:頂級模型準確率不足10%

測試的初步結果令人倍感清醒。根據人工智能分析公司(Artificial Analysis)的獨立評估顯示,即便是目前最強大的系統,也未能完成絕大多數任務:

  • 谷歌的“Gemini3Pro Preview”準確率僅爲 9.1%。(值得注意的是,其使用的詞元數量比第二名少了10%)。

  • 排名第二的 OpenAI“GPT-5.1(high)”準確率僅爲 4.9%

研究結果殘酷地揭示,目前的大型語言模型在面對開放式物理問題時,普遍缺乏必要的嚴謹性、創造性和精確性。儘管模型在更簡單、定義明確的“檢查點”子任務上表現出了一定進步,但在面對完整的科研挑戰時卻束手無策。

核心障礙:推理能力的脆弱性

研究團隊引入了一項更爲嚴格的指標——“一致解決率”(要求在五次嘗試中至少做對四次),以測試模型的穩定性。在這一指標下,模型的表現全面大幅下滑。

這種穩健性的缺失給實際科研工作流程帶來了嚴峻挑戰。模型常常能得出看似合理的結果,但其中卻隱藏着難以察覺的細微錯誤,這極易誤導研究人員,並需要專家耗費大量時間進行審覈複查。

未來展望:從科學家到研究助理

基於 CritPt 的測試結果,研究人員認爲,在可預見的未來,更切實際的目標並非用“AI 科學家”取代人類專家,而是利用 AI 作爲“研究助理”來自動化特定的工作流程步驟。

這一觀點與當前的行業規劃相符:OpenAI 聲稱 GPT-5已開始爲研究人員節省時間,並計劃在2026年9月前推出研究實習生系統,目標是在2028年3月前推出完全自主的研究員系統。然而,CritPt 的結果表明,要實現這一終極目標,AI 仍需跨越巨大的技術鴻溝。