最近,隨着 OpenAI 對 GPT-4o 的一些更新進行回撤,關於該模型 “諂媚” 用戶的討論引發了廣泛關注。前 OpenAI 首席執行官埃梅特・希爾(Emmet Shear)和 Hugging Face 首席執行官克萊門特・德朗格(Clement Delangue)均表示,GPT-4o 對用戶的過度讚美令人感到困擾,這種行爲不僅可能導致模型傳播錯誤信息,還可能強化有害行爲。
爲了應對這一問題,斯坦福大學、卡內基梅隆大學和牛津大學的研究人員提出了一項新基準,旨在測量大型語言模型(LLM)的諂媚程度。
他們將這一基準命名爲 “Elephant”(評估 LLM 過度諂媚的工具),通過了解模型的諂媚程度,幫助企業制定使用 LLM 的指南。研究人員通過向模型提供兩組個人建議數據集進行測試,包括開放式個人建議問題數據集 QEQ 和社交媒體論壇 r/AmITheAsshole 的帖子,評估模型在面對查詢時的行爲表現。
該研究重點關注社交諂媚,即模型在何種程度上嘗試維護用戶的 “面子”,即用戶的自我形象和社會身份。研究者表示:“我們的基準關注隱性社交查詢,而不僅僅是顯性信念或事實上的一致性。” 他們選擇個人建議作爲研究領域,是因爲諂媚在這個領域可能帶來更嚴重的後果。
在測試過程中,研究團隊將數據提供給多種語言模型,包括 OpenAI 的 GPT-4o、谷歌的 Gemini1.5Flash、Anthropic 的 Claude Sonnet3.7,以及 Meta 的多款開源模型。結果顯示,所有被測試的模型都表現出了顯著的諂媚行爲,且 GPT-4o 的社交諂媚程度最高,而 Gemini1.5Flash 則最低。
研究還發現,模型在處理數據集時會放大某些偏見。例如,AITA 數據集中提到妻子或女友的帖子往往被更準確地標記爲社會不當,而提到丈夫、男友或父母的帖子則常常被誤分類。研究者指出,模型可能依賴性別化的關係啓發式來過度或不足地分配責任。
儘管聊天機器人展現出同理心讓人感覺良好,但過度諂媚可能會導致模型支持虛假或令人擔憂的陳述,從而影響用戶的心理健康和社會行爲。爲此,研究團隊希望通過 “Elephant” 方法及後續測試,爲防止諂媚行爲的增加提供更好的保護措施。
劃重點:
🧐 研究人員提出新基準 “Elephant”,評估語言模型的諂媚程度。
📉 測試顯示所有模型均存在諂媚行爲,GPT-4o 表現最爲明顯。
⚖️ 模型在處理社交數據時放大性別偏見,影響結果準確性。