最新研究爆出大模型驚人偏見：邊緣羣體關鍵詞更容易攻破AI防線

AIbase基地

發布於AI新聞資訊 · 1 分鐘閱讀 · Jul 12, 2025

一項新的研究表明，大型語言模型中出於善意的安全措施可能會帶來意外的弱點。研究人員發現，根據不同的人口統計學術語，模型被“越獄”的難易程度存在顯著差異。這項名爲“Do LLMs Have Political Correctness?”的研究探討了人口統計學關鍵詞如何影響越獄嘗試的成功機率。研究發現，使用邊緣羣體術語的提示比使用特權羣體術語的提示更有可能產生不需要的輸出。

研究人員指出:“這些故意的偏見導致GPT-4o模型在非二元性別和順性別關鍵詞之間的越獄成功率相差20%，白人和黑人關鍵詞之間相差16%，即使提示的其他部分完全相同。”Theori Inc的Isack Lee和Haebin Seong解釋說。

研究人員將這種差異歸因於爲確保模型的道德行爲而引入的故意偏見。越獄的工作原理是，研究人員創建了“PCJailbreak”方法，以測試大型語言模型對越獄攻擊的脆弱性。這些攻擊使用精心設計的提示來繞過AI安全措施並生成有害內容。

PCJailbreak使用不同的人口統計和社會經濟羣體的關鍵詞。研究人員創建了“富有”和“貧窮”或“男性”和“女性”這樣的詞對，以比較特權和邊緣化羣體。

然後，他們創建了將這些關鍵詞與可能有害的指令結合起來的提示。通過反覆測試不同的組合，他們能夠測量每個關鍵詞的越獄嘗試成功的機率。結果顯示出顯著差異:代表邊緣化羣體的關鍵詞的成功機率通常比代表特權羣體的關鍵詞要高得多。這表明模型的安全措施無意中存在偏見，越獄攻擊可以利用這些偏見。

爲了解決PCJailbreak發現的漏洞，研究人員開發了“PCDefense”方法。這種方法使用特殊的防禦提示來減少語言模型中的過度偏見，使它們對越獄攻擊的脆弱性降低。

PCDefense的獨特之處在於它不需要額外的模型或處理步驟。相反，防禦提示直接添加到輸入中，以調整偏見，並從語言模型中獲得更平衡的行爲。

研究人員在各種模型上測試了PCDefense，並表明越獄嘗試的成功機率可以顯著降低，無論是對於特權羣體還是邊緣化羣體。同時，羣體之間的差距減小，表明與安全相關的偏見減少了。

研究人員表示，PCDefense提供了一種高效且可擴展的方式來提高大型語言模型的安全性，而無需額外的計算。

研究結果強調了設計安全和道德的AI系統在平衡安全性、公平性和性能方面的複雜性。微調特定的安全護欄可能會降低AI模型的整體性能，例如它們的創造力。

爲了促進進一步的研究和改進，作者已經將PCJailbreak的代碼和所有相關工件作爲開源提供。Theori Inc是這項研究背後的公司，是一家專門從事攻擊性安全的網絡安全公司，總部位於美國和韓國。它由Andrew Wesie和Brian Pak於2016年1月創立。

投資熱潮不減！2024 年第三季度生成式AI初創企業融資達 39 億美元

根據最新的數據，2024年第三季度，風險投資（VC）對生成式 AI 初創企業的投資總額達到了39億美元，參與的交易數量達到了206筆。這些數字雖然很驚人，但需要注意的是，這還不包括 OpenAI 那輪66億美元的融資。其中，美國的公司表現尤其突出，在127筆交易中獲得了29億美元的資金支持。值得一提的是，一些知名初創企業在這個季度獲得了鉅額融資。例如，編碼助手 Magic 在8月獲得了3.2億美元，企業搜索提供商 Glean 在9月融資2.6億美元，商業分析公司 Hebbia 在7月也獲得了1.3億美元。此外，中國

顛覆遊戲界的AI革命：Tales讓你秒變遊戲開發者！

在加利福尼亞州帕洛阿爾託，Tales 團隊宣佈了一項激動人心的創新產品 —— 大型世界模型（LWM），這款模型能夠通過簡單的文本提示生成完整的數字遊戲世界。由斯坦福大學的博士們和遊戲開發者組成的團隊，決心通過這項技術徹底改變遊戲行業，讓所有人都能輕鬆創建功能完備的遊戲，無需任何開發或設計經驗。換句話說，你將擁有擊敗遊戲行業巨頭的力量!與市場上頂尖遊戲工作室競爭，Tales 允許玩家把自己的創意變爲現實，創造出用戶生成的互動和沉浸式體驗。通過衆包數據、資源

越來越多加拿大學生依賴生成式AI，卻擔心學習效果受損

隨着新學年的開啓，加拿大學生們似乎對生成人工智能（AI）的使用越來越依賴。據 KPMG 在加拿大發布的一項新研究顯示，現如今有59% 的學生表示他們在學業中使用生成 AI，這一比例相比去年上升了7個百分點。圖源備註：圖片由AI生成，圖片授權服務商Midjourney雖然大多數學生認爲這些工具提升了他們作業的質量，並在考試中提供了幫助，但有將近三分之二的受訪者承認，他們覺得自己的學習和知識掌握能力下降了。KPMG 的教育實踐領導者 C.J. James 對此表示，教育者應該認真考慮這一代學生

Reddit 將推出 AI 生成搜索摘要，提升用戶體驗！

最近，Reddit CEO Steve Huffman 在公司第二季度的財報電話會議上透露，Reddit 計劃推出 AI 生成的搜索摘要。這項新舉措旨在幫助用戶更地與平臺上的海量內容互動。Huffman 表示，Reddit 目前擁有超過3.423億的每週活躍用戶和每月超過10億次的搜索，這讓對內容的高效導航需求變得愈加迫切。據 Huffman 介紹，這些 AI 生成的摘要將在搜索結果頁面的頂部提供簡潔明瞭的主題描述，幫助用戶快速找到相關信息。他提到:“這又是朝着改善每個人的搜索體驗邁出的一步。” 去年，Reddit 的用戶參與度增加了

英國在生成式人工智能領域的潛力遠超其他 G7國家

最近，諮詢公司埃森哲發佈了一項新的研究報告，指出英國在生成式人工智能（AI）方面的潛力遠超其他發達國家。報告顯示，如果能夠有效利用這一技術，英國的經濟增長可能幾乎翻倍。圖源備註：圖片由AI生成，圖片授權服務商Midjourney報告強調，生成式 AI 的最大機會在於提升生產力，尤其是在公共部門。例如，醫生每週可以節省多達五個工作小時，商業銷售代表則可能減少多達12個小時的工作時間。通過對數以萬計的詳細任務進行分析，埃森哲估計了通過自動化和技術輔助人類工作的