最近,蘋果公司的研究人員對大語言模型(LLM)的數學推理能力進行了深入研究,推出了一項名爲 GSM-Symbolic 的新基準測試。

這個新基準測試是在 GSM8K 的基礎上發展的,後者主要用於評估基礎數學能力。雖然許多 LLM 在 GSM8K 上的表現有所提升,但科學界對這些模型的推理能力仍然存有疑問,認爲現有的評估指標可能無法全面反映它們的真實能力。研究發現,LLM 通常依賴於概率模式匹配,而非真正的邏輯推理,導致它們對輸入的小變化非常敏感。

image.png

在這項新研究中,研究人員使用符號模板生成多樣化的數學問題,從而提供更可靠的評估。實驗結果顯示,當問題的數值或複雜度增加時,LLM 的表現顯著下降。此外,即使是添加與問題表面相關但實際上無關的信息,也可能導致模型性能下降高達65%。這些結果再次印證了 LLM 在推理時更多依賴模式匹配,而非正式的邏輯推理。

GSM8K 數據集包含超過8000個適合年級水平的數學問題,因其流行而引發了一些風險,比如數據污染和小問題變化帶來的性能波動。爲了應對這些挑戰,GSM-Symbolic 的出現使得問題的多樣性得到了有效控制。這項基準測試對20多種開放和封閉模型進行了評估,使用了來自100個模板的5000個樣本,展現了 LLM 在數學推理能力上的深刻見解和侷限性。

初步實驗表明,不同模型在 GSM-Symbolic 上的性能差異顯著,整體準確率低於在 GSM8K 上所報告的表現。研究進一步探討了更改變量名稱和數值對 LLM 的影響,結果表明數值變化對性能的影響更大。此外,問題的複雜性也直接影響準確性,複雜問題導致性能顯著下降。這些結果表明,模型在處理數學問題時可能更依賴於模式匹配,而非真正的推理能力。

這項研究強調了當前 GSM8K 評估的侷限性,並介紹了新基準 GSM-Symbolic,旨在評估 LLM 的數學推理能力。總體而言,研究結果表明,LLM 在處理複雜問題時仍需進一步提升邏輯推理能力。

論文:https://arxiv.org/abs/2410.05229

劃重點:  

🧮 研究人員推出新基準 GSM-Symbolic,評估 LLM 的數學推理能力。  

📉 LLM 在處理複雜數學問題時表現較差,依賴模式匹配而非邏輯推理。  

📊 研究揭示不同模型在新基準下性能差異顯著,呼籲改善評估方法。