近日,一項由奧地利複雜科學研究所(CSH)主導的研究顯示,儘管大型語言模型(LLMs)在多項任務中表現優異,但在應對高級歷史問題時卻暴露了短板。研究團隊針對三大頂尖模型進行測試,包括 OpenAI 的 GPT-4、Meta 的 Llama 和谷歌的 Gemini,結果讓人失望。

機器人比賽 答題 數學

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

爲了評估這些模型在歷史知識上的表現,研究者們開發了一個名爲 “Hist-LLM” 的基準測試工具。該工具依據 Seshat 全球歷史數據庫,旨在驗證 AI 回答歷史問題的準確性。研究結果在知名人工智能會議 NeurIPS 上公佈,數據顯示,表現最佳的 GPT-4Turbo 的準確率僅爲46%。這一結果顯示,其表現僅比隨機猜測稍好。

倫敦大學學院計算機科學副教授 Maria del Rio-Chanona 表示:“儘管大型語言模型令人印象深刻,但它們在高級歷史知識方面的理解深度仍顯不足。它們擅長處理簡單的事實,但在應對更復雜的歷史問題時卻顯得無能爲力。” 例如,當詢問古埃及某一特定時期是否存在鱗甲時,GPT-4Turbo 錯誤地回答 “存在”,而實際情況是這種技術在1500年後纔出現。此外,當研究者詢問古埃及是否擁有職業常備軍時,GPT-4也錯誤地回答 “有”,而實際答案是沒有。

研究還揭示出,模型在處理一些特定區域(如撒哈拉以南非洲)的問題時表現較差,這表明其訓練數據可能存在一定偏見。研究負責人 Peter Turchin 指出,這些結果反映了在某些領域,LLMs 仍無法替代人類。

劃重點:

- 📉 GPT-4Turbo 在高級歷史考試中的準確率僅爲46%,表現不佳。

- 📚 研究顯示大型語言模型在複雜歷史知識理解上仍顯不足。

- 🌍 研究團隊希望通過改進測試工具,提升模型在歷史研究中的應用潛力。