最近,一道簡單的小學數學題卻讓不少AI大模型"翻了車",12個國內外知名的AI大模型中,8個模型在回答"9.11和9.9哪個大"這個問題時都答錯了。
在測試中,大多數大模型在比較小數點後的數字時,錯誤地認爲9.11大於9.9。即便是在明確限定爲數學語境的情況下,一些大模型依然給出了錯誤答案。這暴露了大模型在數學能力上的短板。

這次測試的12個大模型中,包括阿里通義千問、百度文心一言、Minimax和騰訊元寶在內的4個模型答對了,而ChatGPT-4o、字節豆包、月之暗面kimi、智譜清言、零一萬物萬知、階躍星辰躍問、百川智能百小應、商湯商量等8個模型都答錯了。

一些行業人士認爲,大模型在數學問題上的表現不佳,可能是因爲它們在設計上更像文科生而不是理科生。生成式的語言模型通常通過預測下一個詞的方式進行訓練,這使得它們在處理語言數據時表現出色,但在數學推理方面卻顯得力不從心。

對於這個問題,月之暗面迴應稱:其實我們人類對大模型的能力探索——無論是大模型能做到什麼,還是大模型做不到什麼——都還處於非常早期的階段。
“我們非常期待用戶在使用中能夠發現和報告更多的邊界案例(Corner Case),不管是最近的“9.9和9.11哪個大、13.8和13.11哪個大”,還是之前的’strawberry‘有幾個’r‘,這些邊界案例的發現,有助於我們增加對大模型能力邊界的瞭解。但要徹底解決問題,又不能僅僅依賴於逐一修復每個案例,原因在於這些情況就像自動駕駛會遇到的場景一樣是很難窮盡的,我們更加要做的是不斷增強底層基礎模型的智能水平,讓大模型變得更加強大和全面,能夠在各種複雜和極端情況下依然表現出色。”

一些專家認爲,要提升大模型的數學能力,關鍵在於訓練語料。大語言模型主要通過互聯網上的文本數據進行訓練,而這些數據中數學問題和解決方案相對較少。因此,未來大模型的訓練需要更體系地構建,尤其是在複雜推理方面。
