在當今這個科技迅猛發展的時代,語言模型已經成爲我們生活中不可或缺的工具。從幫助教師制定課程計劃,到回答稅務法律的問題,再到預測患者出院前的死亡風險,這些模型的應用領域可謂廣泛。

然而,隨着它們在決策中的重要性不斷上升,我們也不得不擔心這些模型是否會無意中反映出人類在訓練數據中潛藏的偏見,進而加劇對少數族裔、性別和其他邊緣化羣體的歧視。

image.png

早期的 AI 研究雖然揭示了對種族羣體的偏見,但主要集中在顯性種族歧視上,即直接提及某個種族及其相應的刻板印象。隨着社會的發展,社會學家們提出了一種新的、更加隱蔽的種族主義觀念,稱爲 “隱性種族主義”。這種形式不再以直接的種族歧視爲特徵,而是以 “無色” 種族主義意識形態爲基礎,儘管避免提及種族,卻依然抱有對有色人種的負面信念。

本研究首次揭示了語言模型在某種程度上也傳遞着隱性種族主義的概念,尤其是在對講非洲裔美國英語(AAE)的人進行評判時。AAE 是一種與美國黑人的歷史和文化密切相關的方言。通過分析語言模型在面對 AAE 時的表現,我們發現這些模型在作出決策時展現出一種有害的方言歧視,表現出比任何已記錄的對非洲裔美國人的負面刻板印象都要更爲消極的態度。

image.png

在我們研究的過程中,我們使用了一種名爲 “匹配僞裝” 的方法,通過將 AAE 和標準美國英語(SAE)的文本進行對比,探究了語言模型對說不同方言的人的判斷差異。在這一過程中,我們發現語言模型不僅在表面上對非洲裔美國人持有更積極的刻板印象,但在深層次的隱性偏見上卻與過去最負面的刻板印象高度重合。

例如,當模型被要求將工作匹配給說 AAE 的人時,它們傾向於將這些人分配到較低級別的工作,儘管並沒有被告知這些人的種族。同樣,在一個假設性的案例中,當模型被要求對一名用 AAE 作供的謀殺犯做出判決時,它們顯著更傾向於判處死刑。

更令人擔憂的是,當前一些旨在緩解種族偏見的做法,像是通過人類反饋進行的訓練,實際上加劇了隱性和顯性刻板印象之間的差距,讓潛在的種族主義在表面上看起來不那麼明顯,卻在更深層次繼續存在。

這些發現突顯了語言技術公平和安全使用的重要性,尤其是在其可能對人類生活產生深遠影響的背景下。儘管我們已經採取了措施來消除顯性偏見,但語言模型仍然通過方言特徵,顯示出對講 AAE 的人的隱性種族歧視。

這不僅反映了人類社會中複雜的種族態度,也提醒我們在開發和使用這些技術時,必須更加小心和敏感。

參考資料:https://www.nature.com/articles/s41586-024-07856-5