近日,OpenAI 推出了備受期待的 AI 模型,此前代號爲 “草莓”,正式名稱爲 “o1-preview”。

OpenAI 承諾這款新模型在物理、化學和生物學等難度較大的基準任務上表現不亞於博士生。然而,初步測試的結果顯示,這款 AI 離替代人類科學家或程序員的目標仍有很大距離。

社交媒體上,許多用戶分享了他們與 “OpenAI o1” AI 的互動體驗,結果顯示該模型在基本任務上依然表現不佳。

例如,INSA Rennes 的研究員 Mathieu Acher 發現,OpenAI o1在解決某些棋類謎題時,頻繁提出非法的棋步。

image.png

而 Meta AI 科學家 Colin Fraser 則指出,在一個關於農民過河運送羊的簡單文字謎題中,這款 AI 竟然放棄了正確答案,轉而給出一些毫無邏輯的胡言亂語。

image.png

甚至在 OpenAI 用作演示的邏輯謎題中,涉及到草莓的提問也讓用戶獲得了不同的答案,其中一位用戶發現該模型的錯誤率高達75%。

image.png

不僅如此,部分用戶反映這款新模型甚至在計算字母 “R” 在 “strawberry” 這個單詞中出現的次數時,也常常出錯。

image.png

雖然 OpenAI 在發佈時表示這是一個早期模型,尚未具備如網頁瀏覽、文件上傳等功能,但這樣的基礎性錯誤仍讓人感到驚訝。

爲了改進,OpenAI 在新模型中引入了 “思維鏈” 過程,使得 OpenAI o1與之前的 GPT-4o 模型有了顯著區別。這種方法讓 AI 在得出答案前,可以反覆推敲,雖然這也導致其響應時間延長。

有用戶發現,該模型竟然花費了92秒纔給出一個文字謎題的答案,但結果卻依然錯誤。

image.png

OpenAI 的研究科學家 Noam Brown 對此表示,雖然目前的響應速度較慢,但他們期望未來的版本能進行更長時間的思考,甚至能在突破性問題上提供新見解。

不過,著名 AI 評論家 Gary Marcus 對此持懷疑態度,認爲長時間的處理並不一定能帶來超越性的推理能力。他強調,儘管 AI 技術不斷髮展,現實中的研究和實驗仍然不可或缺。

可見,在實際使用中,OpenAI 的這款新 AI 模型在各方面的表現仍讓人失望,而這也引發了關於 AI 技術未來發展的討論。

劃重點:

🌟 近日,OpenAI 推出新 AI 模型 “草莓”,聲稱在複雜任務上能與博士生相媲美。

🤖 許多用戶發現,這款 AI 在基本任務上頻頻出錯,如提出非法棋步和錯誤回答簡單謎題。

💬 OpenAI 承認該模型仍在發展中,但長時間思考未必能提高推理能力,許多基礎問題仍未解決。