最近,芝加哥大學的一項研究揭示了市場上各類商業 AI 文本檢測工具的顯著差異。研究人員構建了一個包含1992篇人類撰寫文本的數據集,涵蓋亞馬遜產品評論、博客文章、新聞報道、小說摘錄、餐廳評論和簡歷等六種類型。同時,他們使用了四種領先的語言模型:GPT-41、Claude Opus4、Claude Sonnet4和 Gemini2.0Flash,生成了相應的 AI 寫作樣本。

爲了比較這些檢測工具的性能,研究團隊主要跟蹤了兩個指標。假陽性率(FPR)用於衡量人類文本被錯誤標記爲 AI 生成的頻率,而假陰性率(FNR)則顯示 AI 文本未被檢測到的比例。在這次直接對比中,商業檢測工具 Pangram 表現出色。對於中長文本,Pangram 的 FPR 和 FNR 幾乎爲零;在短文本方面,錯誤率也普遍低於0.01,唯有 Gemini2.0Flash 在餐廳評論中的 FNR 爲0.02。

image.png

其他檢測工具如 OriginalityAI 和 GPTZero 表現稍遜,雖然在較長文本上表現良好,FPR 保持在0.01以下,但在極短文本方面卻不盡如人意。此外,它們對將 AI 文本僞裝成人類寫作的 “人性化” 工具也較爲敏感。

Pangram 在識別 AI 生成文本方面表現出色,所有四種模型生成的文本 FNR 均未超過0.02。相比之下,OriginalityAI 的表現則受生成模型的影響更大,而 GPTZero 在模型選擇上表現更爲穩定,但仍不及 Pangram。

研究人員還測試了各檢測工具對抗 StealthGPT 工具的能力,該工具能讓 AI 生成的文本更難被檢測。Pangram 在這些情況下表現較爲穩健,而其他檢測工具則面臨較大挑戰。

在經濟效益方面,Pangram 的平均識別成本爲每個正確識別的 AI 文本0.0228美元,約爲 OriginalityAI 的一半和 GPTZero 的三分之一。研究提出了 “政策上限” 的概念,用戶可以設定最大可接受的假陽性率,以便更好地調節檢測工具。

image.png

研究團隊警告,這些結果僅是當前形勢的一個快照,未來將在檢測工具、新 AI 模型和規避工具之間展開一場 “軍備競賽”。他們建議定期進行透明的審計,以跟上這一快速變化的領域。

項目:https://pangram.ai/

劃重點:

🌟 Pangram 在檢測準確性方面表現卓越,假陽性和假陰性率幾乎爲零。  

📊 其他工具在處理短文本時存在困難,Pangram 在識別 AI 生成文本方面更具優勢。  

💰 Pangram 的識別成本最低,經濟效益顯著,爲用戶提供了實用的選擇。