最近,加州大學洛杉磯分校和亞馬遜的研究人員對大型語言模型(LLMs)的推理能力進行了深入分析。他們首次系統地區分了歸納推理和演繹推理這兩種能力,探討了這兩者對 AI 系統的挑戰程度。
圖源備註:圖片由AI生成,圖片授權服務商Midjourney
歸納推理是指從具體的觀察中推導出一般性規律,而演繹推理則是將一般規則應用於特定案例。研究的目的是瞭解哪種推理能力對大型語言模型來說更具挑戰性。爲此,研究團隊開發了一種新的方法,稱爲 “SolverLearner”。這種方法使得模型通過少量示例學習一種函數,將輸入映射到輸出。接着,外部程序使用這個函數,從而避免與演繹推理混淆。
研究結果顯示,像 GPT-4這樣的語言模型在歸納推理方面表現相當出色,使用 “SolverLearner” 方法的情況下,準確率幾乎達到100%。不過,在演繹推理,尤其是 “反事實” 任務上,模型們就顯得力不從心了。例如,模型在十進制的算術任務上表現良好,但在其他數字系統的計算中就遇到了困難。此外,模型在分析一些詞序不尋常或空間取向改變的句子時,也顯得不夠靈活。
研究人員總結道,演繹推理對於當前的 LLMs 來說是一大挑戰。正確應用已學的規則,往往取決於這些任務在訓練過程中的出現頻率。儘管使用瞭如鏈式思維等提示方法,能夠稍微提高模型的演繹推理能力,但效果仍然不夠理想。值得一提的是,最近發佈的 OpenAI 新模型 o1並未參與此次測試。
另一項由俄亥俄州立大學和卡內基梅隆大學的研究人員進行的研究,考察了 Transformer 模型的邏輯推理能力。他們研究模型是否可以通過 “grokking” 來獲取隱含推論的能力,特別是在組合和比較任務中。
結果顯示,這些模型確實可以在經過長時間訓練後獲得隱含推論的能力,但只有在比較任務中能夠對未見過的示例進行泛化。研究人員指出,這種差異與所學電路的內部結構有關,並建議對 Transformer 架構進行調整,以期望在初步實驗中實現質量提升。
劃重點:
🌟 LLMs 在歸納推理方面表現出色,準確率接近100%。
🧩 演繹推理依然是個挑戰,尤其在處理反事實任務時。
🔍 另一項研究顯示,Transformer 模型在組合任務中能夠獲得隱含推論能力,但泛化能力有限。