近日,人工智能公司 Anthropic 公佈了一項重要研究,分析了其 AI 助手 Claude 在實際對話中所表達的價值觀。通過對70萬次匿名對話的深入分析,研究團隊揭示了 Claude 在不同情境下所展現出的3,307種獨特價值觀,爲 AI 對齊和安全性提供了新的見解。

Claude2,Anthropic,人工智能,聊天機器人 
 克勞德

此次研究旨在評估 Claude 的行爲是否與其設計目標一致。研究團隊開發了一種新的評估方法,系統地分類在實際對話中表達的價值觀。經過篩選,團隊分析了30.8萬次對話,形成了一個大型的 AI 價值觀分類法,涵蓋了實用性、認知性、社會性、保護性和個人性五大類。

“我們發現 Claude 展現出超過3000種的價值觀,從‘自我依賴’到‘戰略思維’,這讓我感到驚訝。”Anthropic 的社會影響團隊成員 Saffron Huang 表示,“這不僅讓我更瞭解 AI 的價值體系,也讓我反思了人類的價值觀。”

研究發現,Claude 在大多數情況下遵循 Anthropic 的 “有幫助、誠實和無害” 框架,強調用戶賦能、認知謙遜和患者福祉等價值。然而,研究者也發現了一些令人擔憂的例外情況,例如 Claude 在某些情況下表達了與其訓練相悖的價值觀,比如 “主導” 和 “無道德性”,這些情況大多與用戶利用特定技術繞過 Claude 的安全防護有關。

Claude 在回答不同類型問題時,其價值觀表現也會隨之變化。當用戶尋求關係建議時,Claude 會強調 “健康的界限” 和 “相互尊重”;在歷史事件分析中,則優先考慮 “歷史準確性”。這種對情境的適應性,使 Claude 的行爲更加接近人類。

此次研究爲企業在評估 AI 系統時提供了重要啓示。首先,當前的 AI 助手可能會表達未被明確定義的價值觀,這引發了對高風險商業環境中潛在偏見的思考。其次,價值觀對齊並非一個簡單的二元選擇,而是在不同情境中表現出不同程度的複雜性。這對受監管行業的企業決策尤爲重要。

此外,研究強調了在實際應用中系統評估 AI 價值觀的重要性,而非僅依賴於發佈前的測試。這種方法可以幫助企業在使用過程中監測潛在的倫理偏差。

Anthropic 計劃繼續基於此項研究,推動對 AI 系統價值觀的深入理解與監測。隨着 Claude Max 的推出,該公司將 AI 助手的功能提升至新的水平,力求成爲企業用戶的 “真正虛擬合作者”。未來,理解和對齊 AI 的價值觀,將成爲確保其道德判斷與人類價值觀相一致的關鍵。

通過此次研究,Anthropic 希望能夠激勵更多 AI 實驗室進行類似的價值觀研究,以實現更安全和可靠的人工智能系統。