領先 AI 模型在複雜物理任務中表現不佳，仍需人類助力

近日，由全球超過50位物理學家聯合開發的 “CritPt” 基準測試，旨在評估頂尖 AI 模型在處理未公開的複雜物理研究問題時的能力。測試的目標是模擬早期博士研究生所需的獨立研究水平。儘管目前的 AI 系統如谷歌的 “Gemini3Pro” 和 OpenAI 的 “GPT-5” 被寄予厚望，但結果卻令人失望。

機器人 AI寫作 AI教育

圖源備註:圖片由AI生成，圖片授權服務商Midjourney

在獨立評估中，Gemini3Pro 以9.1% 的準確率名列榜首，而 GPT-5則以4.9% 的成績緊隨其後。這一結果表明，即使是表現最好的模型，仍然無法解決大多數任務，特別是在涉及更復雜的研究挑戰時。CritPt 測試涵蓋了來自量子物理、天體物理、高能物理和生物物理等11個領域的71個研究挑戰。爲了防止模型簡單猜測或檢索，所有問題均基於未發表的研究內容。

測試團隊還採用了 “持續解決率” 這一更嚴格的評估標準，要求模型在五次嘗試中至少四次給出正確答案。結果顯示，所有模型的表現均大幅下滑，凸顯了它們在複雜問題上推理的脆弱性。這種不可靠性對研究工作流程造成了挑戰，模型常常會生成看似正確但實際卻含有細微錯誤的答案，這可能誤導研究人員並增加審覈工作的負擔。

研究團隊指出，當前大模型在獨立解決開放性物理問題方面尚顯不足，更爲現實的目標是將其視爲 “研究助手”，在特定的工作流程中提供幫助。與此相符的是，OpenAI 計劃在2026年9月推出一款研究實習生系統，並在2028年3月推出完全自主的研究系統。公司聲稱，GPT-5目前已經在幫助研究人員節省時間。

劃重點:
🌟 目前頂尖 AI 模型在複雜物理任務中的表現不盡如人意，最高僅達到9.1% 的準確率。
🔍 “CritPt” 基準測試涵蓋了多個物理領域，問題均爲未公開研究內容。
🤖 未來 AI 更可能作爲研究助手，而非完全替代人類專家，幫助自動化特定流程。

千問Qwen3.5-Plus除夕開源登頂全球最強開源大模型

2026年除夕，阿里巴巴開源新一代大模型千問Qwen3.5-Plus，性能媲美Gemini3Pro，成爲全球最強開源大模型。該模型採用底層架構革新，參數3970億但激活僅170億，以更小規模超越萬億參數的Qwen3-Max，部署顯存佔用降低60%，長上下文推理吞吐量提升19倍。API成本低至每百萬Token 0.8元，僅爲Gemini3Pro的1/18。此外，它實現了從純文本到原生多模態的躍遷。

領先 AI 模型在複雜物理任務中表現不佳，仍需人類助力

相關推薦

OpenAI發佈用戶提示詞指南:面向常規界面與Codex構建統一框架

GPT- 5 引發鏈式反應：OpenAI爬蟲活動瘋狂激增三倍

OpenAI 官宣 100 美元專業版訂閱套餐，瞄準高強度生產力

谷歌發佈更替公告：Gemini 3 Pro Preview 即將退役，開發者需限時遷移

千問Qwen3.5-Plus除夕開源登頂全球最強開源大模型

領先 AI 模型在複雜物理任務中表現不佳，仍需人類助力

相關推薦

OpenAI發佈用戶提示詞指南:面向常規界面與Codex構建統一框架

GPT- 5 引發鏈式反應：OpenAI爬蟲活動瘋狂激增三倍

OpenAI 官宣 100 美元專業版訂閱套餐，瞄準高強度生產力

​谷歌發佈更替公告：Gemini 3 Pro Preview 即將退役，開發者需限時遷移

千問Qwen3.5-Plus除夕開源 登頂全球最強開源大模型

谷歌發佈更替公告：Gemini 3 Pro Preview 即將退役，開發者需限時遷移

千問Qwen3.5-Plus除夕開源登頂全球最強開源大模型