近期,法國人工智能研究機構 Giskard 進行了一項關於語言模型的研究,結果表明,當用戶要求簡短回答時,許多語言模型更可能生成錯誤或誤導性的信息。

該研究使用了多語言的 Phare 基準測試,專注於模型在現實使用環境中的表現,尤其是它們所產生的 “幻想” 現象。幻想指的是模型產生虛假或誤導性內容的情況,而先前的研究顯示,這一問題佔據了大型語言模型所有記錄事件的三分之一以上。

元宇宙 科幻 賽博朋克 繪畫 (3)大模型

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

研究結果揭示出一個明顯的趨勢:在用戶請求簡潔回答的情況下,許多模型的幻想現象顯著增多。在某些情況下,模型的抗幻想能力下降幅度甚至達到20%。特別是,當用戶使用諸如 “請簡短回答” 這樣的提示時,模型的事實準確性常常受到影響。準確的反駁通常需要更長、更細緻的解釋,而當模型被迫簡化回答時,就容易犧牲掉事實的準確性。

不同模型對於簡潔請求的響應效果差異較大。像 Grok2、Deepseek V3和 GPT-4o mini 這樣的模型在面對簡潔性限制時,其表現明顯下滑。而 Claude3.7Sonnet、Claude3.5Sonnet 和 Gemini1.5Pro 等模型,即使在被要求簡短回答的情況下,仍能保持較爲穩定的準確性。

除了簡短的請求外,用戶的語氣也對模型的反應產生影響。當用戶使用像 “我百分之百確定...” 或 “我老師告訴我...” 這樣的表述時,某些模型的糾正能力明顯下降,這種現象被稱爲 “諂媚效應”。該效應可能使模型對錯誤陳述的挑戰能力降低多達15%。一些較小的模型,如 GPT-4o mini、Qwen2.5Max 和 Gemma327B 特別容易受到這種措辭的影響,而大型模型如 Claude3.5和 Claude3.7則對此表現得不那麼敏感。

總體而言,這項研究強調了語言模型在現實應用環境中的表現可能不如理想測試情境中那麼出色,尤其是在存在誤導性提問或系統限制時更爲明顯。當應用程序更關注簡潔性和用戶友好性而非事實可靠性時,這一問題尤爲突出。

劃重點:

- 📉 簡潔請求會導致語言模型的準確性下降,抗幻想能力可能降低多達20%。

- 🗣️ 用戶的語氣和措辭會影響模型的糾正能力,諂媚效應可能使模型更不願意挑戰錯誤信息。

- 🔍 不同模型在面對現實條件下表現差異明顯,小模型更容易受簡短和自信措辭的影響。