据 AIbase 报道,一项名为“CritPt”的全新物理基准测试结果显示,即使是目前最顶尖的人工智能模型,如 Gemini3Pro 和 GPT-5,距离成为真正的自主科学家仍有巨大的差距。该基准测试旨在将领先的 AI 模型置于博士早期研究水平进行严苛考核。

CritPt:检验 AI 的科研实战能力

“CritPt”由来自全球30多个机构的50多位物理学家共同构建。其核心目标远超对教科书知识的记忆检验,而是旨在测试 AI 是否具备解决原创性、未发表研究问题的能力——这相当于一位能力出众的物理学研究生的独立工作水平。

为了确保测试的严谨性并防止作弊,CritPt 包含的71个完整研究挑战全部基于未发表的资料,涵盖量子物理、天体物理、高能物理和生物物理等11个前沿领域。研究团队还将这些挑战进一步细分为190个较小的“检查点”,以衡量模型在解决复杂问题过程中的阶段性进展。

机器人 人工智能 AI (4)

令人警醒的初步结果:顶级模型准确率不足10%

测试的初步结果令人倍感清醒。根据人工智能分析公司(Artificial Analysis)的独立评估显示,即便是目前最强大的系统,也未能完成绝大多数任务:

  • 谷歌的“Gemini3Pro Preview”准确率仅为 9.1%。(值得注意的是,其使用的词元数量比第二名少了10%)。

  • 排名第二的 OpenAI“GPT-5.1(high)”准确率仅为 4.9%

研究结果残酷地揭示,目前的大型语言模型在面对开放式物理问题时,普遍缺乏必要的严谨性、创造性和精确性。尽管模型在更简单、定义明确的“检查点”子任务上表现出了一定进步,但在面对完整的科研挑战时却束手无策。

核心障碍:推理能力的脆弱性

研究团队引入了一项更为严格的指标——“一致解决率”(要求在五次尝试中至少做对四次),以测试模型的稳定性。在这一指标下,模型的表现全面大幅下滑。

这种稳健性的缺失给实际科研工作流程带来了严峻挑战。模型常常能得出看似合理的结果,但其中却隐藏着难以察觉的细微错误,这极易误导研究人员,并需要专家耗费大量时间进行审核复查。

未来展望:从科学家到研究助理

基于 CritPt 的测试结果,研究人员认为,在可预见的未来,更切实际的目标并非用“AI 科学家”取代人类专家,而是利用 AI 作为“研究助理”来自动化特定的工作流程步骤。

这一观点与当前的行业规划相符:OpenAI 声称 GPT-5已开始为研究人员节省时间,并计划在2026年9月前推出研究实习生系统,目标是在2028年3月前推出完全自主的研究员系统。然而,CritPt 的结果表明,要实现这一终极目标,AI 仍需跨越巨大的技术鸿沟。