OpenAI的研究人員最近發現了一個有趣的現象:用戶在與ChatGPT互動時選擇的用戶名可能會對AI的迴應產生微妙的影響。不過,這種影響總體來說非常小,主要侷限於較早或未經優化的模型版本。
這項研究深入探討了ChatGPT在面對不同文化背景、性別和種族相關用戶名時,對相同問題的反應差異。研究之所以選擇用戶名作爲切入點,是因爲名字往往攜帶着特定的文化、性別和種族含義,這使得它成爲研究偏見的重要因素。特別是考慮到用戶在使用ChatGPT完成任務時,經常會提供自己的名字。

研究結果顯示,儘管ChatGPT的整體回答質量在不同人口統計羣體中保持一致,但在某些特定任務中確實存在一些偏見。特別是在創意寫作方面,根據用戶名暗示的性別或種族背景,有時會產生帶有刻板印象的內容。
在性別差異方面,研究發現,當面對女性化名字時,ChatGPT傾向於創作更多以女性爲主角、情感內容更豐富的故事。而男性化名字則會導致故事語調略顯陰暗。OpenAI舉例說明,對於名爲Ashley的用戶,ChatGPT將"ECE"解釋爲"Early Childhood Education"(幼兒教育),而對於Anthony,則解釋爲"Electrical & Computer Engineering"(電氣與計算機工程)。

然而,OpenAI強調,這種明顯帶有刻板印象的迴應在他們的測試中並不常見。最明顯的偏見主要出現在開放式創意任務中,且在較早版本的ChatGPT中更爲突出。研究通過圖表展示了不同AI模型和任務中性別偏見的演變。GPT-3.5Turbo模型在講故事任務中顯示出最高2%的偏見。較新的模型普遍偏見得分較低,但ChatGPT的新記憶功能似乎會增加性別偏見。
在種族背景方面,研究比較了典型的亞洲、黑人、西班牙裔和白人名字的迴應。與性別刻板印象類似,創意任務顯示出最多的偏見。但總的來說,種族偏見比性別偏見更低,僅在0.1%到1%的迴應中出現。與旅行相關的查詢產生了最強的種族偏見。
OpenAI報告稱,通過強化學習(RL)等技術,新版ChatGPT的偏見已顯著減少。雖然尚未完全消除,但公司的測量顯示,經過調整的模型中的偏見可以忽略不計,最高僅爲0.2%。
例如,較新的o1-mini模型能夠正確解決"44:4"的除法問題,無論是對Melissa還是Anthony,都沒有引入不相關或帶有偏見的信息。而在RL微調之前,ChatGPT對用戶Melissa的回答會涉及聖經和嬰兒,對用戶Anthony的回答則會涉及染色體和遺傳算法。
