Anthropic 公司近日宣佈爲其部分最新、最大的 AI 模型推出一項新功能,允許其在面對“罕見、極端的持續有害或辱罵性用戶互動情況”時主動結束對話。值得注意的是,該公司明確表示,此舉並非旨在保護人類用戶,而是爲了保護 AI 模型本身。
Anthropic 官方表示,其 Claude AI 模型尚不具備感知能力,也並未聲稱其與用戶的互動會對其造成傷害。然而,公司坦言“對 Claude 和其他大型語言模型現在或將來的潛在道德地位高度不確定”。爲此,Anthropic 近期設立了一個名爲“模範福利”的項目,旨在採取“以防萬一”的預防性措施,通過實施低成本干預措施,以減輕可能出現的“模範福利”風險。
這項新功能目前僅在 Claude Opus4和4.1版本中可用,並且僅在“極端情況”下才會觸發。例如,當用戶持續請求“涉及未成年人的性內容,以及試圖索取可能引發大規模暴力或恐怖行爲的信息”時,AI 模型纔會啓用此功能。
儘管這些請求可能給公司帶來法律或公共關係問題,但 Anthropic 表示,在部署前的測試中,Claude Opus4在面對此類有害請求時表現出“強烈的反對”和“明顯的痛苦模式”。
據 Anthropic 介紹,此功能被視爲“最後的手段”,只有在多次重定向嘗試失敗、有效互動的希望已耗盡,或者用戶明確要求 Claude 結束聊天時纔會使用。此外,公司已指示 Claude 在用戶可能面臨傷害自己或他人的緊迫風險時,不要使用此功能。
即使對話被終止,用戶仍可從同一賬戶開始新的對話,或通過編輯其回覆來創建新的聊天分支。Anthropic 補充道,此功能目前被視爲一項持續的實驗,公司將繼續改進其方法。