最新研究顯示,儘管人工智能在編程和內容創作等領域表現出色,但在處理複雜的歷史問題時仍顯不足。近期在NeurIPS會議上公佈的一項研究表明,即使是最先進的大型語言模型(LLM)在歷史知識測試中也難以取得令人滿意的成績。
研究團隊開發了名爲Hist-LLM的測試基準,對OpenAI的GPT-4、Meta的Llama和谷歌的Gemini三款頂級語言模型進行評估。測試基於Seshat全球歷史數據庫進行,結果令人失望:表現最佳的GPT-4Turbo準確率僅爲46%。
圖源備註:圖片由AI生成,圖片授權服務商Midjourney
倫敦大學學院副教授瑪麗亞·德爾里奧-查諾納解釋說:"這些模型在基本史實方面表現不錯,但在涉及博士級別的深入歷史研究時卻力不從心。"研究發現AI經常在細節上出錯,比如錯誤判斷古埃及某些時期是否擁有特定軍事技術或常備軍。
研究人員認爲,這種表現欠佳源於AI模型傾向於從主流歷史敘事中進行推斷,難以準確把握更爲細微的歷史細節。此外,研究還發現這些模型在處理撒哈拉以南非洲等地區的歷史問題時表現更差,暴露出訓練數據可能存在的偏差問題。
複雜性科學中心(CSH)的研究負責人Peter Turchin表示,這一發現說明在某些專業領域,AI尚無法取代人類專家。不過研究團隊仍對AI在歷史研究中的應用前景保持樂觀,他們正在改進測試基準,以期幫助開發出更優秀的模型。