近日,OpenAI 推出了一項新的基準測試,旨在評估其人工智能模型在各行業與人類專業人士的表現差異。這項名爲 GDPval 的測試,是 OpenAI 對其人工智能系統在經濟價值工作中是否能超越人類的重要探索。根據 OpenAI 的說法,GPT-5模型與 Anthropic 的 Claude Opus4.1模型在某些領域的工作質量已經接近行業專家。
不過,OpenAI 也指出,這些模型並不會立即取代人類工作。儘管一些企業高管預測人工智能將在幾年內取代人類的工作,但 OpenAI 承認,當前的 GDPval 測試僅涵蓋了人類工作中的一小部分任務。因此,這只是評估人工智能進步的一種方式。
GDPval 測試涵蓋了九個主要行業,這些行業對美國國內生產總值(GDP)貢獻最大,包括醫療、金融、製造業和政府等領域。該測試評估了在這些行業中的44種職業表現,從軟件工程師到護士、再到記者都有涉及。OpenAI 在初始測試中邀請了專業人士對 AI 生成的報告與其他專業人士的報告進行比較,並選擇最佳者。例如,投資銀行家被要求創建有關最後一公里配送行業的競爭對手分析報告,並與 AI 生成的報告進行比較。OpenAI 隨後對 AI 模型在44個職業中 “勝出” 的比率進行了統計。
據悉,在經過增強計算能力的 GPT-5-high 版本測試中,該模型在與行業專家的比較中表現優於或與之持平的比例爲40.6%。而 Anthropic 的 Claude Opus4.1模型在任務中表現優於或持平於行業專家的比例則高達49%。OpenAI 認爲 Claude 模型的高分主要得益於其製作美觀圖形的能力,而非單純的表現。
值得注意的是,大多數工作專業人士的職責遠不止提交研究報告,因此,GDPval-v0的測試範圍相對有限。OpenAI 表示,未來計劃開發更全面的測試,以涵蓋更多行業和互動工作流程。儘管如此,公司仍對 GDPval 的進展感到樂觀。
OpenAI 首席經濟學家亞倫・查特吉在接受採訪時表示,GDPval 的結果表明,在這些職業中,人們可以利用人工智能模型將時間花在更有意義的任務上。隨着模型能力的提升,專業人士將能夠利用這些工具,減輕部分工作負擔,從而專注於更高價值的工作。
博客:https://openai.com/index/gdpval/
劃重點:
🌟 OpenAI 發佈的新基準測試 GDPval 評估 AI 模型在多個行業的表現,與人類專家的能力逐漸接近。
🤖 GPT-5模型在44種職業中有40.6% 的任務表現優於或持平於行業專家,而 Claude Opus4.1則爲49%。
📈 OpenAI 計劃未來推出更全面的測試,以更準確評估 AI 在真實工作中的能力和表現。
