大失所望！用戶實測OpenAI新模型o1：居然犯各種低級錯誤，連個字母都算錯了

AIbase基地

發布於AI新聞資訊 · 1 分鐘閱讀 · Jul 21, 2025

近日，OpenAI 推出了備受期待的 AI 模型，此前代號爲 “草莓”，正式名稱爲 “o1-preview”。

OpenAI 承諾這款新模型在物理、化學和生物學等難度較大的基準任務上表現不亞於博士生。然而，初步測試的結果顯示，這款 AI 離替代人類科學家或程序員的目標仍有很大距離。

社交媒體上，許多用戶分享了他們與 “OpenAI o1” AI 的互動體驗，結果顯示該模型在基本任務上依然表現不佳。

例如，INSA Rennes 的研究員 Mathieu Acher 發現，OpenAI o1在解決某些棋類謎題時，頻繁提出非法的棋步。

而 Meta AI 科學家 Colin Fraser 則指出，在一個關於農民過河運送羊的簡單文字謎題中，這款 AI 竟然放棄了正確答案，轉而給出一些毫無邏輯的胡言亂語。

甚至在 OpenAI 用作演示的邏輯謎題中，涉及到草莓的提問也讓用戶獲得了不同的答案，其中一位用戶發現該模型的錯誤率高達75%。

不僅如此，部分用戶反映這款新模型甚至在計算字母 “R” 在 “strawberry” 這個單詞中出現的次數時，也常常出錯。

雖然 OpenAI 在發佈時表示這是一個早期模型，尚未具備如網頁瀏覽、文件上傳等功能，但這樣的基礎性錯誤仍讓人感到驚訝。

爲了改進，OpenAI 在新模型中引入了 “思維鏈” 過程，使得 OpenAI o1與之前的 GPT-4o 模型有了顯著區別。這種方法讓 AI 在得出答案前，可以反覆推敲，雖然這也導致其響應時間延長。

有用戶發現，該模型竟然花費了92秒纔給出一個文字謎題的答案，但結果卻依然錯誤。

OpenAI 的研究科學家 Noam Brown 對此表示，雖然目前的響應速度較慢，但他們期望未來的版本能進行更長時間的思考，甚至能在突破性問題上提供新見解。

不過，著名 AI 評論家 Gary Marcus 對此持懷疑態度，認爲長時間的處理並不一定能帶來超越性的推理能力。他強調，儘管 AI 技術不斷髮展，現實中的研究和實驗仍然不可或缺。

可見，在實際使用中，OpenAI 的這款新 AI 模型在各方面的表現仍讓人失望，而這也引發了關於 AI 技術未來發展的討論。

劃重點:
🌟 近日，OpenAI 推出新 AI 模型 “草莓”，聲稱在複雜任務上能與博士生相媲美。
🤖 許多用戶發現，這款 AI 在基本任務上頻頻出錯，如提出非法棋步和錯誤回答簡單謎題。
💬 OpenAI 承認該模型仍在發展中，但長時間思考未必能提高推理能力，許多基礎問題仍未解決。

OpenAI新款AI模型o1被評爲 “中等風險” ，竟因這兩大特性！

最近，OpenAI 推出了其最新的人工智能模型系列 o1，這一系列模型在一些邏輯任務中表現出了非常先進的能力，因此公司對其潛在風險進行了謹慎評估。根據內部和外部的評估，OpenAI 將 o1模型分類爲 “中等風險”。爲什麼會有這樣的風險評級呢?首先，o1模型展現了與人類相似的推理能力，能夠生成與人類在同一主題上撰寫的論點同樣令人信服的文本。這種勸說能力並非 o1模型所獨有，之前的一些 AI 模型也表現出了類似的能力，有時甚至超過人類的水平。其次，評估結果顯示，o1模型可以協

國家網信辦就人工智能生成合成內容標識徵求意見

國家互聯網信息辦公室近日發佈《人工智能生成合成內容標識辦法（徵求意見稿）》，旨在規範人工智能生成合成內容的標識，維護國家安全和社會公共利益，保護公民、法人和其他組織的合法權益。該辦法根據《中華人民共和國網絡安全法》、《互聯網信息服務算法推薦管理規定》、《互聯網信息服務深度合成管理規定》、《生成式人工智能服務管理暫行辦法》等法律法規制定，意見反饋截止時間爲2024年10月14日。

OpenAI新模型o1：思考的 AI，能否拯救你的大腦？

OpenAI最新推出的o1模型在AI領域掀起了一陣波瀾。這個曾被公司內部戲稱爲"草莓"的模型，爲ChatGPT用戶帶來了體驗AI"思考"過程的新機遇。然而，這個備受期待的模型究竟是否真的值得一試?答案似乎是:有喜有憂。o1模型在某些方面確實展現了顯著的進步。它在推理和解決複雜問題上的表現令人印象深刻，特別是其"多步推理"能力。這種能力允許模型在回答問題前先進行"思考"，將大問題拆解成小步驟，並嘗試識別每個步驟的正確性。這種方法雖然並非全新概念，但o1的實現使其成爲了可行的技

HeyGen推出Avatar 3.0：支持半身動作，AI數字人從此不再“假笑”

HeyGen最新推出的Avatar3.0系統正在重新定義AI虛擬形象的可能性，爲視頻創作帶來前所未有的革命性變革。這次升級不再侷限於簡單的口型同步，而是將虛擬角色的表現力提升到了一個全新的境界。Avatar3.0的核心優勢在於其高度智能化的表現系統。虛擬角色現在能夠根據文本內容自動調整語音的音調、語氣，並做出相應的面部表情和半身動作。這種深度的腳本理解能力讓AI虛擬形象真正開始"理解"並"表達"對話的情感和內涵。具體來說，Avatar3.0帶來了以下突破性的功能:動態腳本理解:虛擬形象能

MiniMax核心高管再度淡出:張前川離任引發產品未來疑慮

據智能涌現消息MiniMax產品負責人、前今日頭條用戶產品負責人張前川因個人原因已淡出公司事務，現改任產品顧問。對此，MiniMax公司迴應確認屬實，並對張前川的貢獻表示感謝。然而，知情人士透露，顧問一職實爲虛職，張前川已不再參與MiniMax的業務管理，與離職無異。圖源備註:圖片由AI生成，圖片授權服務商Midjourney張前川的職業生涯頗爲豐富，曾就職於百度、知乎，並於2016年加入字節跳動，後任今日頭條用戶產品團隊負責人。2023年初，張前川離職創業，隨後加入MiniMax。自此，他主

Runway推出“Video to Video”功能精神小夥秒變科幻片主角

Runway最新推出的"Video to Video"功能正在徹底改變視頻創作的遊戲規則。這項創新技術讓視頻編輯變得如此簡單，以至於任何人都能成爲數字魔法師，隨心所欲地改變視頻的風格、背景和氛圍。你只需上傳一段普通視頻，再輸入一些簡單的指令，比如"科幻風格"或"雨天場景"，系統就能立即爲你呈現出煥然一新的視頻內容。你甚至可以進行特定物體的材料屬性轉移，比如這個視頻中，桌面上有一個金屬材質的蘋果，手在碰到蘋果的一瞬間，就完成了材料屬性的轉移:怎麼樣，效果是不是酷斃了。