近日,多家人工智能大模型在進行簡單數字比較時出現錯誤引發廣泛關注。包括字節豆包、GPT4o、月之暗面Kimi、階躍星辰躍問、百川智能百小應等在內的多個知名AI模型,在回答"9.11和9.9哪個更大"這樣的基礎問題時均給出了錯誤答案。此外,此前有用戶發現多個大模型在回答"strawberry"一詞中有幾個"r"時也出現了錯誤。

圖源備註:圖片由AI生成,圖片授權服務商Midjourney
針對這一現象,月之暗面公司做出迴應。該公司表示,人類對大模型能力的探索仍處於非常早期的階段,無論是瞭解大模型能做到什麼,還是不能做到什麼,都需要更多的研究和測試。
月之暗面強調,他們非常歡迎用戶在使用過程中發現和報告更多的邊界案例(Corner Case)。這些案例,無論是近期的數字比較問題,還是之前的單詞拼寫問題,都有助於增進對大模型能力邊界的理解。
然而,月之暗面指出,要徹底解決這些問題,不能僅僅依賴於逐一修復每個案例。他們認爲,這些情況就像自動駕駛會遇到的場景一樣,是很難窮盡的。因此,更重要的是不斷增強底層基礎模型的智能水平,使大模型變得更加強大和全面,能夠在各種複雜和極端情況下依然表現出色。
這一事件引發了業界對AI大模型基礎能力的討論,也凸顯了當前AI技術在處理某些看似簡單的任務時仍面臨挑戰。隨着研究的深入和技術的進步,相信這些問題將逐步得到改善。
