華盛頓州立大學(WSU)近日發佈的一項研究揭示,儘管 ChatGPT 的回答語氣充滿自信,但在處理複雜科學論斷時,其表現更接近於“隨機猜測”。研究指出,該模型不僅準確率有限,而且在面對同一問題時經常給出前後矛盾的答案。
由 Mesut Cicek 副教授領銜的團隊,從 2021 年以來的商業期刊中提取了 719 條研究假設,並反覆提交給模型進行真僞判斷:
雖然 ChatGPT 的表面正確率在 80% 左右,但在剔除隨機猜測因素後,其真實表現僅比 50% 的“擲硬幣”概率高出約 60%。研究者將其評價爲“低分的 D 等成績”。模型在識別錯誤陳述方面表現極差,對“假命題”的正確判斷率僅爲 16.4%。
研究人員將每條假設向模型提交了 10 次,發現模型很難保持立場的一致性:
回答反覆橫跳:在 10 次重複問答中,模型僅在約 73% 的案例中保持了結論一致。
極端矛盾:在部分案例中,模型會出現“真、假交替”的情況,甚至出現“一半回答爲真、一半回答爲假”的極端情形,即便使用的提示詞完全相同。
研究指出,用戶容易被 AI 流暢且極具說服力的語言所迷惑,但這並不代表其具備真正的推理能力:
缺乏真實“大腦”:模型本質上是在進行記憶和模式匹配,並不像人類那樣真正理解世界或知道自己在說什麼。
版本進步有限:測試顯示,2025 年測試的更新版 ChatGPT-5 mini 與早期版本在這一特定任務上的整體表現相近,均未展現出質的飛躍。
基於研究結果,Cicek 建議企業管理者在涉及複雜決策時必須保持高度懷疑:不應將生成式 AI 視爲可以替代專業判斷的“權威”,必須對所有輸出結果進行人工覈查。組織應加強培訓,幫助員工理解 AI 工具的優勢與侷限,避免盲目信任帶來的決策偏差。
該研究再次提醒公衆,在 AI 技術快速迭代的背景下,其深層邏輯判斷與證據權衡能力仍有待提高。
