在人工智能的世界裏,機器學習模型尤其是大型語言模型(LLMs)的推理能力一直是科學家們關注的焦點。

最近,蘋果公司的AI研究團隊發表了一篇論文,題爲《理解大型語言模型在數學推理上的侷限性》,爲我們揭開了這些模型在處理邏輯問題時的侷限性。

image.png

論文中,研究者們通過一個簡單的數學問題來展示這一點。他們首先提出了一個關於奧利弗摘獼猴桃的問題:

如下所示:

奧利弗星期五摘了44顆獼猴桃。星期六他又摘了58顆獼猴桃。星期天他摘的獼猴桃數量是星期五的兩倍。奧利弗一共有多少顆獼猴桃?

顯然,答案是44+58+ (44*2) =190。雖然大型語言模型在算術方面實際上並不完善,但它們可以相當可靠地解決這樣的問題。

但如果你加入一些無關的信息,來觀察模型的反應,比如:

奧利弗星期五摘了44顆獼猴桃。星期六他又摘了58顆。星期天他摘的獼猴桃數量是星期五的兩倍,但其中5顆比平均尺寸小一點。奧利弗有多少顆獼猴桃?

儘管這並沒有改變問題的數學本質,但即使是最先進的LLMs也在這個小小的干擾下給出了錯誤的答案。例如,GPT-o1-mini錯誤地從星期天摘的獼猴桃總數中減去了5個小獼猴桃。

2.jpg

這個實驗表明,儘管LLMs在某些情況下能夠給出正確答案,但它們並不真正理解問題的本質。

研究者們認爲,這些模型的失敗模式表明,它們並沒有進行真正的邏輯推理,而是在複製它們在訓練數據中觀察到的推理步驟。這就像是一個LLM能夠統計出“我愛你”後面通常會跟着“我也愛你”,但這並不意味着它真正理解了愛的含義。

image.png

這篇論文的合著者之一Mehrdad Farajtabar在社交媒體上進一步解釋了這一發現。他指出,儘管通過更好的提示工程可能在一些簡單的情況下提高模型的表現,但對於複雜的干擾,模型可能需要更多的上下文數據來正確處理,而這些干擾對於一個小孩來說可能根本不是問題。

這項研究提醒我們,儘管LLMs在語言處理方面表現出色,但它們在邏輯推理方面的能力仍然有限。這不僅是一個學術問題,隨着AI技術日益成爲我們日常生活的一部分,這些問題的答案變得愈發重要。

我們不能簡單地假設AI能夠理解並執行復雜的任務,而應該更加深入地瞭解它們的工作原理和侷限性。這項研究爲我們提供了對AI技術更深層次的理解,同時也爲我們如何使用和發展這些技術提供了寶貴的見解。

參考資料:https://techcrunch.com/2024/10/11/researchers-question-ais-reasoning-ability-as-models-stumble-on-math-problems-with-trivial-changes/