AI大模型集體翻車！9.11和9.9哪個大？月之暗面迴應大模型稱9.11大於9.9

最近，一道簡單的小學數學題卻讓不少AI大模型"翻了車"，12個國內外知名的AI大模型中，8個模型在回答"9.11和9.9哪個大"這個問題時都答錯了。

在測試中，大多數大模型在比較小數點後的數字時，錯誤地認爲9.11大於9.9。即便是在明確限定爲數學語境的情況下，一些大模型依然給出了錯誤答案。這暴露了大模型在數學能力上的短板。

這次測試的12個大模型中，包括阿里通義千問、百度文心一言、Minimax和騰訊元寶在內的4個模型答對了，而ChatGPT-4o、字節豆包、月之暗面kimi、智譜清言、零一萬物萬知、階躍星辰躍問、百川智能百小應、商湯商量等8個模型都答錯了。

一些行業人士認爲，大模型在數學問題上的表現不佳，可能是因爲它們在設計上更像文科生而不是理科生。生成式的語言模型通常通過預測下一個詞的方式進行訓練，這使得它們在處理語言數據時表現出色，但在數學推理方面卻顯得力不從心。

對於這個問題，月之暗面迴應稱:其實我們人類對大模型的能力探索——無論是大模型能做到什麼，還是大模型做不到什麼——都還處於非常早期的階段。

“我們非常期待用戶在使用中能夠發現和報告更多的邊界案例（Corner Case），不管是最近的“9.9和9.11哪個大、13.8和13.11哪個大”，還是之前的’strawberry‘有幾個’r‘，這些邊界案例的發現，有助於我們增加對大模型能力邊界的瞭解。但要徹底解決問題，又不能僅僅依賴於逐一修復每個案例，原因在於這些情況就像自動駕駛會遇到的場景一樣是很難窮盡的，我們更加要做的是不斷增強底層基礎模型的智能水平，讓大模型變得更加強大和全面，能夠在各種複雜和極端情況下依然表現出色。”

一些專家認爲，要提升大模型的數學能力，關鍵在於訓練語料。大語言模型主要通過互聯網上的文本數據進行訓練，而這些數據中數學問題和解決方案相對較少。因此，未來大模型的訓練需要更體系地構建，尤其是在複雜推理方面。

騰訊發佈CodeBuddy Security，用AI Agent實現更高效的代碼審計

在2026騰訊雲AI產業應用大會上，騰訊雲發佈了代碼安全產品CodeBuddy Security，融合AI深度審計引擎與靜態分析工具Xcheck，應對AI時代漏洞激增及傳統代碼審計瓶頸。儘管AI在漏洞挖掘領域取得突破，如某大模型公司發現隱藏27年的漏洞，但利用AI挖漏洞仍面臨多重挑戰。

中國將首發公有云大模型 Token 性能榜，日均調用量已突破 140 萬億次

隨着人工智能技術爆發式增長，作爲大模型計量與結算核心單位的Token（詞元）使用量激增。截至2026年3月，我國日均詞元調用量突破140萬億次，較2024年初增長千倍，較2025年底三個月內增幅超四成，顯示國內大模型應用正極速擴張。

AI大模型集體翻車！9.11和9.9哪個大？月之暗面迴應大模型稱9.11大於9.9

相關推薦

AI大廠月薪 3 萬瘋搶文科生，“文科無用論”正被智能時代無情打破

國產大模型掀起新一輪上市潮，階躍星辰衝刺香港近年來最大AI IPO

騰訊發佈CodeBuddy Security，用AI Agent實現更高效的代碼審計

中國將首發公有云大模型 Token 性能榜，日均調用量已突破 140 萬億次

誰是真牛？新版公有云大模型Token服務性能監測平臺即將上線