華盛頓州立大學研究：ChatGPT 在複雜科學判斷中表現出嚴重的“自相矛盾”

華盛頓州立大學（WSU）近日發佈的一項研究揭示，儘管 ChatGPT 的回答語氣充滿自信，但在處理複雜科學論斷時，其表現更接近於“隨機猜測”。研究指出，該模型不僅準確率有限，而且在面對同一問題時經常給出前後矛盾的答案。

由 Mesut Cicek 副教授領銜的團隊，從 2021 年以來的商業期刊中提取了 719 條研究假設，並反覆提交給模型進行真僞判斷：

雖然 ChatGPT 的表面正確率在 80% 左右，但在剔除隨機猜測因素後，其真實表現僅比 50% 的“擲硬幣”概率高出約 60%。研究者將其評價爲“低分的 D 等成績”。模型在識別錯誤陳述方面表現極差，對“假命題”的正確判斷率僅爲 16.4%。

研究人員將每條假設向模型提交了 10 次，發現模型很難保持立場的一致性：

研究指出，用戶容易被 AI 流暢且極具說服力的語言所迷惑，但這並不代表其具備真正的推理能力：

基於研究結果，Cicek 建議企業管理者在涉及複雜決策時必須保持高度懷疑：不應將生成式 AI 視爲可以替代專業判斷的“權威”，必須對所有輸出結果進行人工覈查。組織應加強培訓，幫助員工理解 AI 工具的優勢與侷限，避免盲目信任帶來的決策偏差。

該研究再次提醒公衆，在 AI 技術快速迭代的背景下，其深層邏輯判斷與證據權衡能力仍有待提高。

你的專屬 AI 電臺上線！Spotify 發佈 Studio 桌面端應用，開啓“生成式音頻”新紀元

Spotify在2026年投資者日推出核心AI戰略載體——Studio by Spotify Labs，標誌其從音頻播放器轉型爲生成式音頻平臺。該桌面應用內置全能AI助理，可連接日曆、郵箱、筆記，具備網頁瀏覽與信息整理能力，並支持根據用戶日程表定製個人音頻內容。

DeepSeek Code 即將上線