隨着人工智能技術的迅猛發展,各大 AI 創業公司不斷宣稱其產品將工作方式和知識獲取的方式。然而,最近一項發表在《皇家學會》上的研究卻揭示了新一代 AI 模型在總結文本時存在嚴重問題,令人擔憂。研究顯示,新款 AI 聊天機器人在提供信息時,有高達73% 的概率會遺漏關鍵信息。

圖源備註:圖片由AI生成,圖片授權服務商Midjourney
這項研究對十款廣泛使用的語言模型(LLM)進行分析,樣本涵蓋近5000個科學研究的總結,涉及的聊天機器人包括 ChatGPT-4o、ChatGPT-4.5、DeepSeek 和 LLaMA3.370B。研究結果顯示,即使在特定要求下,AI 提供的回答仍然在遺漏關鍵細節方面的錯誤率是人類撰寫科學摘要的五倍。
研究人員指出:“在總結科學文本時,LLM 可能會遺漏限制研究結論範圍的細節,從而導致對原始研究的結果進行過度概括。” 更令人擔憂的是,隨着聊天機器人的不斷更新,其錯誤率反而在上升,情況與 AI 行業領袖們的承諾完全相反。例如,在2023至2025年間,美國青少年對 ChatGPT 的使用率從13% 增加到26%。在研究中,舊版 ChatGPT-4Turbo 遺漏關鍵細節的可能性是原版的2.6倍,而新版 ChatGPT-4o 則高達9倍。類似地,Meta 的 LLaMA3.370B 相較於舊版本,其過度概括的概率更是高達36.4倍。
總結大量數據爲簡潔的幾句話是一項複雜的任務。雖然人類可以直觀地從具體經驗中提取廣泛的教訓,但這對於編程給聊天機器人而言卻極其複雜。研究人員指出,在臨牀醫療等領域,細節至關重要,哪怕是微小的遺漏也可能導致嚴重後果。因此,將 LLM 廣泛應用於各行各業,尤其是醫療和工程領域,面臨着巨大的風險。
儘管如此,研究也提到,提供給 LLM 的提示對其回答結果有顯著影響,但這是否會影響其對科學論文的總結仍然未知,這爲未來的研究提供了方向。總體來看,除非 AI 開發者能夠有效解決新一代 LLM 的這些問題,否則人們可能還得依賴人類撰寫的內容來準確總結科學報告。
劃重點:
🧠 研究發現新一代 AI 聊天機器人在總結信息時,關鍵細節遺漏率高達73%。
📈 新版聊天機器人錯誤率上升,特別是在青少年使用率快速增加的背景下。
🔍 提供給 LLM 的提示會影響其回答,但對科學論文的總結效果仍需進一步研究。
