最近,OpenAI 推出了其最新的 o3和 o4-mini AI 模型,這些模型在許多方面都達到了尖端水平。然而,新的模型在 “幻覺” 問題上卻並沒有改善,反而幻覺現象比 OpenAI 之前的多個模型更爲嚴重。

所謂 “幻覺”,是指 AI 模型會錯誤地生成虛假信息,這是當今最棘手的 AI 問題之一。以往每一代新模型在減少幻覺方面都有所改善 o3和 o4-mini 卻打破了這一規律。根據 Open 的內部測試,這兩款被稱爲推理模型的 AI,在幻覺頻率上超過了公司的前幾代推理模型以及傳統的非推理模型,比如 GPT-4o。

OpenAI

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

OpenAI 在其技術報告中指出,o3模型在 PersonQA 基準測試中的幻覺率高達33%,這是之前 o1和 o3-mini 模型幻覺率的兩倍,後者分別爲16% 和14.8%。而 o4-mini 在 PersonQA 中的幻覺率甚至達到了48%,顯示出更爲嚴重的問題。

第三方測試機構 Transluce 也發現,o3模型在回答問題時常常編造自己所採取的行動。例如,o3聲稱自己在2021年的 MacBook Pro 上運行了代碼,然後把結果複製到答案中,儘管它並不能這麼做。

Transluce 的研究人員表示,o 系列模型所採用的強化學習方法可能會放大一些原本可以通過常規後期訓練流程緩解的問題。此現象讓 o3的實用性大打折扣。一位斯坦福大學的兼職教授在測試 o3的編程工作流時發現,o3會生成一些無效的網站鏈接,影響了使用體驗。

雖然幻覺現象可以在某種程度上促進模型的創造性思維,但在對準確性要求極高的行業,如法律領域,模型頻繁的事實錯誤將導致很大的問題。

提升模型準確性的一種有效方法是給予它們網絡搜索能力。OpenAI 的 GPT-4o 通過網絡搜索在 SimpleQA 基準測試中達到了90% 的準確率,因此搜索功能有可能改善推理模型的幻覺現象。

然而,如果推理模型的幻覺問題隨着規模的擴大而不斷惡化,那麼找到解決方案的緊迫性將會加大。OpenAI 方面表示,正在持續進行研究,以提高其所有模型的準確性和可靠性。

在過去一年中,AI 行業已轉向關注推理模型,因爲改善傳統 AI 模型的技術已經出現了收益遞減的趨勢。然而,推理模型的出現似乎也帶來了更多的幻覺現象,這爲未來的發展帶來了新的挑戰。

劃重點:  

🌟 OpenAI 的新推理模型 o3和 o4-mini 幻覺頻率比以往更高。  

🤖 o3在 PersonQA 基準測試中幻覺率達到33%,而 o4-mini 則高達48%。  

🔍 提升模型準確性的潛在方法是引入網絡搜索功能,以降低幻覺現象。