最近,米拉研究所、谷歌 DeepMind 和微軟研究院的研究人員對 AI 語言模型的推理能力進行了深入調查,發現小型和便宜的模型在解決複雜問題時存在顯著不足。
這項研究的是一個名爲 “組合 GSM” 的測試,目的是評估這些模型在解決鏈式的基礎數學問題方面的表現。

圖源備註:圖片由AI生成,圖片授權服務商Midjourney
研究人員結合了 GSM8K 數據集中的兩個問題,使用第一個問題的答案作爲第二個問題的變量進行測試。結果顯示,大多數模型在這些複雜的推理任務中表現遠低於預期,尤其是在小型模型中更爲明顯。雖然小型模型在標準數學測試如 GSM8K 上得分與大型模型相似,但在新的組合測試中,它們的邏輯差距卻大幅增加,達到2到12倍之多。
以 GPT-4o mini 爲例,它在新測試中的表現遠遠落後於 GPT-4o,儘管在原始基準測試中幾乎相當。其他模型如 Gemini 和 LLAMA3也出現了類似的情況。研究表明,這些小型模型雖然在常見任務中能夠識別表面模式,但在新的情境中應用這些知識時卻遇到困難。
研究還發現,即使是專門爲數學設計的小型模型也存在缺陷。例如,Qwen2.5-Math-7B-IT 在高難度的高中數學題目上得分超過80%,但在鏈式的基礎數學問題上卻正確率不足60%。而對於較小的模型,指令調優的方法雖然在原始 GSM8K 測試中能顯著提高性能,但在組合 GSM 測試中的提升則微乎其微。
這項研究並不完全最新,因爲 OpenAI 最近推出的邏輯優化模型 o1並未納入測試。儘管有跡象表明 o1在規劃能力上有顯著提升,但研究顯示人類在解決數學問題的速度和優雅度上依然佔優。谷歌的 Gemini 模型也在最近的更新後表現出更強的數學能力。
研究者強調,現有的評估方法可能掩蓋了這些模型的系統性差異,從而導致對小型模型能力的高估。他們呼籲對低成本 AI 系統的發展策略進行重新評估,質疑這些模型在複雜推理和泛化能力上的固有限制。這項研究爲我們瞭解 AI 系統的侷限性提供了更深入的見解。
劃重點:
📉 小型 AI 語言模型在解決鏈式數學問題時表現不佳,邏輯差距高達12倍。
🧮 即便是專門針對數學的小型,在基礎問題上的正確率也低於60%。
🔍 現有評估方法可能高估了小型模型的能力,需重新審視其發展策略。
