在科學研究中,推理能力至關重要。科學家們不僅僅是回憶事實,還需提出假設、測試並修正這些假設,並在不同領域之間綜合思想。隨着 AI 模型能力的提升,如何評估它們在科學研究中深度推理的能力成爲了一個重要問題。

最近,AI 模型在一些重大領域取得了里程碑式的成就,包括在國際數學奧林匹克和信息學奧林匹克比賽中表現優異。同時,GPT-5等先進模型正在有效加速真實的科學工作流程。研究人員利用這些系統進行跨學科的文獻搜索以及複雜數學證明的工作,顯著縮短了從幾天或幾周到幾小時的研究時間。
爲進一步評估 AI 在科學研究中的能力,我們推出了一個新基準 ——FrontierScience。這一基準專注於評估在物理、化學和生物等領域的專家級科學推理能力。FrontierScience 包含了數百個經過專家驗證的難題,並設有兩個問題追蹤:奧林匹克版和研究版,旨在分別測量奧林匹克風格的科學推理能力和真實世界的科學研究能力。初步評估結果顯示,GPT-5.2在 FrontierScience-Olympiad 和 Research 兩個模塊中的表現優於其他模型。
具體而言,GPT-5.2在奧林匹克模塊中得分77%,在研究模塊中得分25%。儘管目前的模型已經能夠支持結構化推理的研究環節,但在開放式思維能力方面仍有待提升。當前,科學家們利用這些模型加速研究流程,但在問題框架和驗證方面仍需依賴人類的判斷。未來,我們將繼續完善 FrontierScience 基準,並擴大其應用領域,以幫助模型成爲科學發現中的可靠夥伴。
劃重點:
🔍 FrontierScience 是一個新推出的基準,旨在評估 AI 在科學領域的推理能力。
📊 初步評估顯示,GPT-5.2在科學推理能力上表現突出,但仍需提升開放式思維能力。
🚀 AI 模型的進步正在加速科學研究流程,未來將進一步優化評估基準與擴展應用領域。
