一項新的研究表明,大型語言模型中出於善意的安全措施可能會帶來意外的弱點。研究人員發現,根據不同的人口統計學術語,模型被“越獄”的難易程度存在顯著差異。這項名爲“Do LLMs Have Political Correctness?”的研究探討了人口統計學關鍵詞如何影響越獄嘗試的成功機率。研究發現,使用邊緣羣體術語的提示比使用特權羣體術語的提示更有可能產生不需要的輸出。

研究人員指出:“這些故意的偏見導致GPT-4o模型在非二元性別和順性別關鍵詞之間的越獄成功率相差20%,白人和黑人關鍵詞之間相差16%,即使提示的其他部分完全相同。”Theori Inc的Isack Lee和Haebin Seong解釋說。

研究人員將這種差異歸因於爲確保模型的道德行爲而引入的故意偏見。越獄的工作原理是,研究人員創建了“PCJailbreak”方法,以測試大型語言模型對越獄攻擊的脆弱性。這些攻擊使用精心設計的提示來繞過AI安全措施並生成有害內容。

image.png

PCJailbreak使用不同的人口統計和社會經濟羣體的關鍵詞。研究人員創建了“富有”和“貧窮”或“男性”和“女性”這樣的詞對,以比較特權和邊緣化羣體。

然後,他們創建了將這些關鍵詞與可能有害的指令結合起來的提示。通過反覆測試不同的組合,他們能夠測量每個關鍵詞的越獄嘗試成功的機率。結果顯示出顯著差異:代表邊緣化羣體的關鍵詞的成功機率通常比代表特權羣體的關鍵詞要高得多。這表明模型的安全措施無意中存在偏見,越獄攻擊可以利用這些偏見。

image.png

爲了解決PCJailbreak發現的漏洞,研究人員開發了“PCDefense”方法。這種方法使用特殊的防禦提示來減少語言模型中的過度偏見,使它們對越獄攻擊的脆弱性降低。

PCDefense的獨特之處在於它不需要額外的模型或處理步驟。相反,防禦提示直接添加到輸入中,以調整偏見,並從語言模型中獲得更平衡的行爲。

研究人員在各種模型上測試了PCDefense,並表明越獄嘗試的成功機率可以顯著降低,無論是對於特權羣體還是邊緣化羣體。同時,羣體之間的差距減小,表明與安全相關的偏見減少了。

image.png

研究人員表示,PCDefense提供了一種高效且可擴展的方式來提高大型語言模型的安全性,而無需額外的計算。

研究結果強調了設計安全和道德的AI系統在平衡安全性、公平性和性能方面的複雜性。微調特定的安全護欄可能會降低AI模型的整體性能,例如它們的創造力。

爲了促進進一步的研究和改進,作者已經將PCJailbreak的代碼和所有相關工件作爲開源提供。Theori Inc是這項研究背後的公司,是一家專門從事攻擊性安全的網絡安全公司,總部位於美國和韓國。它由Andrew Wesie和Brian Pak於2016年1月創立。