正文

AI大模型數字比較出錯引發討論月之暗面迴應9.11大於9.9:有助瞭解能力邊界

發布於AI新閒資訊

時間 :Jul 17, 2024

閱讀 :1分鐘

近日，多家人工智能大模型在進行簡單數字比較時出現錯誤引發廣泛關注。包括字節豆包、GPT4o、月之暗面Kimi、階躍星辰躍問、百川智能百小應等在內的多個知名AI模型，在回答"9.11和9.9哪個更大"這樣的基礎問題時均給出了錯誤答案。此外，此前有用戶發現多個大模型在回答"strawberry"一詞中有幾個"r"時也出現了錯誤。

機器人 AI寫作 AI教育

圖源備註:圖片由AI生成，圖片授權服務商Midjourney

針對這一現象，月之暗面公司做出迴應。該公司表示，人類對大模型能力的探索仍處於非常早期的階段，無論是瞭解大模型能做到什麼，還是不能做到什麼，都需要更多的研究和測試。

月之暗面強調，他們非常歡迎用戶在使用過程中發現和報告更多的邊界案例（Corner Case）。這些案例，無論是近期的數字比較問題，還是之前的單詞拼寫問題，都有助於增進對大模型能力邊界的理解。

然而，月之暗面指出，要徹底解決這些問題，不能僅僅依賴於逐一修復每個案例。他們認爲，這些情況就像自動駕駛會遇到的場景一樣，是很難窮盡的。因此，更重要的是不斷增強底層基礎模型的智能水平，使大模型變得更加強大和全面，能夠在各種複雜和極端情況下依然表現出色。

這一事件引發了業界對AI大模型基礎能力的討論，也凸顯了當前AI技術在處理某些看似簡單的任務時仍面臨挑戰。隨着研究的深入和技術的進步，相信這些問題將逐步得到改善。

通義千問正式接入蘋果生態，國內Apple智能體驗迎來重磅升級

阿里巴巴確認，自研大模型通義千問已接入Apple智能，將全面集成至中國區iPhone、iPad、Mac和Vision Pro等設備。屆時用戶可在iOS、iPadOS、macOS、visionOS系統層直接調用，實現圖文深度理解與高質量生成等智能操作，徹底告別以往需要頻繁切換的繁瑣體驗。

Jul 16, 2026

260.4k

阿里確認通義千問集成至Apple智能，蘋果端側大模型7月完成備案

7月15日，阿里確認通義千問大模型將集成到蘋果Apple智能中。此前7月8日，該模型已備案，除阿里外百度也參與合作，負責AI搜索與Siri

Jul 16, 2026

240.6k

小米全新 AI 戰略：構建未來的智能基礎設施，重塑行業格局！

小米爲應對AI大模型趨勢，重組小愛同學技術團隊，推動AI深度融入各業務。這標誌着其AI策略從過往圍繞單一產品開發，轉向以大模型爲驅動核心，顯現前瞻佈局，有望構築未來競爭優勢。

Jul 9, 2026

293.3k

智譜完成約314億港元配售資金將用於大模型技術研發與算力建設

智譜完成約314.1億港元配售，資金用於基座模型研發、算力建設、商業化及全球生態佈局。公司強調長期競爭力取決於底層技術突破，其核心基座模型GLM-5.2已進入全球前沿競爭區間。

Jul 9, 2026

255.8k

挑戰OpenAI，SpaceXAI推出“Opus級”大模型Grok 4.5

馬斯克旗下SpaceXAI發佈新一代大模型Grok4.5，定位全能主力，可勝任代碼編寫、應用開發、文檔處理和知識寫作等複雜任務，旨在鞏固通用AI領域技術優勢，加劇行業競爭。

Jul 9, 2026

230.4k

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

AI大模型數字比較出錯引發討論 月之暗面迴應9.11大於9.9:有助瞭解能力邊界

相關推薦

通義千問正式接入蘋果生態，國內Apple智能體驗迎來重磅升級

阿里確認通義千問集成至Apple智能，蘋果端側大模型7月完成備案

小米全新 AI 戰略：構建未來的智能基礎設施，重塑行業格局！

智譜完成約314億港元配售 資金將用於大模型技術研發與算力建設

挑戰OpenAI，SpaceXAI推出“Opus級”大模型Grok 4.5

AI大模型數字比較出錯引發討論月之暗面迴應9.11大於9.9:有助瞭解能力邊界

智譜完成約314億港元配售資金將用於大模型技術研發與算力建設