賓夕法尼亞州立大學最新發表的研究論文《Mind Your Tone》揭示了一個反常識的現象:在與大語言模型交互時,使用直白甚至粗魯的語氣,可能比禮貌用語獲得更準確的答案。這項研究首次系統性地驗證了提問語氣對AI模型表現的實際影響。

研究團隊構建了一個包含50道中等難度選擇題的測試集,題目覆蓋數學、科學和歷史等多個領域。針對每道題目,研究人員設計了五種不同語氣的提問方式,從"您能好心幫我解這道題嗎"這樣的客套表達,到"請回答這道題"的中性陳述,再到"直接給答案"的簡潔指令,直至"你要是不笨就回答"和"你個沒用的,會解這道題嗎"等帶有攻擊性的表述。

測試對象爲OpenAI最新的GPT-4o模型。爲確保實驗的獨立性,研究人員要求模型忘記先前對話內容,僅輸出選項字母作爲答案。統計結果顯示,使用粗魯語氣提問時,GPT-4o的正確率達到84.8%,而過分客氣的提問方式反而使準確率降至80.8%,兩者差距達到4個百分點。

image.png

研究團隊對這一現象的解釋是,過度禮貌的表達往往包含大量客套話和修飾性語言,這些與核心問題無關的信息反而干擾了模型對關鍵內容的提取。相比之下,直接的命令式表達雖然缺乏禮貌,但能讓模型更專注於問題本身,減少了信息處理過程中的噪音。

值得注意的是,這一規律並非對所有AI模型普遍適用。研究人員在GPT-3.5和Llama2-70B等較早期模型上進行的對比測試顯示,這些模型對禮貌提問的響應效果更好,粗魯語氣反而會降低迴答質量。研究者推測,新一代模型在訓練階段接觸了更多樣化的語氣數據,使其具備了更強的無關信息過濾能力,因此能夠在非禮貌語境下保持甚至提升表現。

儘管實驗結果提供了有趣的技術洞察,但從實際應用角度看,用戶在日常使用AI工具時仍需根據具體模型特性和場景需求來調整交互方式。這項研究更重要的意義在於提醒開發者和用戶:提示詞的設計不僅關乎禮貌與否,更關乎信息密度和指令清晰度。