芝加哥大學最新發佈的一項研究揭示,市面上的人工智能文本檢測器在準確率、可靠性和魯棒性方面存在顯著差異。有的工具幾乎能完美區分人類與 AI 撰寫的文本,而有的則頻繁誤判,甚至在短文本場景下表現失靈。研究顯示,檢測器 Pangram 以極高的精度和成本效益,在所有參測系統中表現最優。
研究設計:覆蓋六類文本與四款主流大模型
研究團隊構建了一個包含 1992篇人類撰寫文本 的數據集,涵蓋六種類型:亞馬遜產品評論、博客文章、新聞報道、小說節選、餐廳評論和簡歷。同時,他們使用四款主流語言模型 —— GPT-41、Claude Opus4、Claude Sonnet4與 Gemini2.0Flash —— 生成了相應的 AI 樣本。
檢測性能通過兩個核心指標衡量:
誤報率(FPR):將人類文本誤判爲 AI 的概率;
漏報率(FNR):未能檢測出 AI 文本的比例。

Pangram 領跑,開源檢測器表現最差
結果顯示,Pangram 在中長文本中幾乎實現 零誤判、零漏判。即便是短文本,其錯誤率也低於0.01,僅在 Gemini2.0Flash 生成的餐廳評論中出現了0.02的輕微誤報。
相比之下,OriginalityAI 和 GPTZero 表現位列第二梯隊——在長文本中仍具可靠性(誤識率維持在0.01以下),但在短樣本和“人性化僞裝”文本中準確率顯著下降。
而基於開源 RoBERTa 模型的檢測器則表現最差,將30% 至69% 的人類文本誤判爲 AI 生成,幾乎不具備實際可用性。
檢測效果因生成模型而異
研究進一步指出,檢測效果與 AI 模型類型密切相關。
Pangram 能準確識別所有四款模型生成的文本,誤識率始終低於0.02;
OriginalityAI 對 Gemini2.0Flash 的檢測更敏感,但對 Claude 系列 的識別力較弱;
GPTZero 受模型影響較小,但整體精度仍落後於 Pangram。
在小說與簡歷等長文本中,各檢測器的識別率普遍較高,而短評論和簡訊類文本則更具挑戰性。即便如此,Pangram 的全字母句法算法仍在短文本識別上保持優勢。
面對規避工具:Pangram 展現魯棒性
爲測試抗干擾能力,研究人員使用了 StealthGPT——一種旨在讓 AI 文本更難被識別的規避工具。結果顯示,Pangram 的識別性能幾乎未受影響,而其他檢測器則準確率大幅下降。
在少於50個單詞的短文本場景中,Pangram 的可靠性最高,OriginalityAI 經常拒絕檢測,GPTZero 錯誤率顯著高於 Pangram。

成本與策略控制:Pangram 更具實用性
研究還計算了檢測成本:Pangram 每正確識別一段 AI 文本的平均成本僅爲 0.0228美元,約爲 OriginalityAI 的一半、GPTZero 的三分之一。
此外,團隊引入了“策略上限(Policy Cap)”概念——允許機構設定最大可接受誤報率(如0.5%),系統則自動校準檢測器以滿足這一閾值。
在這一標準下,Pangram 是唯一能在0.5% 誤報率上限下保持高準確率的檢測器,而其他檢測器的性能均明顯退化。
研究啓示:檢測器與模型的“軍備競賽”
研究人員指出,這場對抗仍處於早期階段。隨着新一代生成模型與“隱身”工具的不斷演進,AI 檢測領域將迎來一場持續的技術軍備競賽。
他們建議機構應定期進行 檢測器“壓力測試”式審計,以確保系統跟上生成式 AI 的發展速度。
此外,研究強調了檢測器在現實應用中的敏感性:AI 可以在輔助創作中發揮作用,但在教育、求職或評價等領域中替代人類原創,則可能引發倫理與真實性爭議。
背景與行業反思
過去,多項研究曾質疑 AI 檢測器的可靠性。OpenAI 曾短暫推出官方檢測工具,但因準確率低下而撤回,至今未發佈新版。研究人員推測,OpenAI 或許並不急於讓 ChatGPT 輸出易被識別,因爲學生等核心用戶羣可能因此減少使用。
這項芝加哥大學的研究因此被視爲 迄今最系統、最量化的 AI 檢測評估之一,不僅揭示了不同檢測器間的巨大差距,也爲機構在學術誠信、內容審覈等領域選擇檢測方案提供了實證參考。
