AI巨頭Anthropic近日宣佈爲其最新、最大的模型推出全新功能,允許AI在"極端罕見的持續有害或濫用用戶互動"情況下主動結束對話。令人矚目的是,Anthropic明確表示此舉並非爲了保護人類用戶,而是爲了保護AI模型本身。
需要澄清的是,Anthropic並未聲稱其Claude AI模型具有感知能力或會在與用戶的對話中受到傷害。該公司明確表示,對於"Claude和其他大語言模型現在或未來的潛在道德地位仍然高度不確定"。
然而,這一聲明指向了Anthropic最近創建的一個研究項目,專門研究所謂的"模型福利"。該公司本質上採取了一種預防性方法,"致力於識別和實施低成本干預措施來減輕模型福利風險,以防這種福利確實存在"。
這項最新變化目前僅限於Claude Opus4和4.1版本。同時,該功能只會在"極端邊緣情況"下觸發,比如"用戶請求涉及未成年人的性內容以及試圖獲取能夠實施大規模暴力或恐怖主義行爲信息的情況"。
雖然這類請求可能會給Anthropic本身帶來法律或公關問題(正如最近有關ChatGPT可能強化或助長用戶妄想思維的報道所示),但該公司表示,在部署前測試中,Claude Opus4顯示出"強烈反對"迴應這些請求的傾向,並在被迫迴應時表現出"明顯的痛苦模式"。
關於這些新的對話終止功能,Anthropic表示:"在所有情況下,Claude只能將其對話終止能力作爲最後手段使用,即在多次重定向嘗試失敗且有效互動希望已經耗盡時,或當用戶明確要求Claude結束聊天時。"
Anthropic還強調,Claude被"指示不要在用戶可能面臨傷害自己或他人的緊急風險時使用此功能"。
當Claude確實結束對話時,Anthropic表示用戶仍能夠從同一賬戶開始新的對話,並通過編輯回覆來創建問題對話的新分支。
該公司表示:"我們將此功能視爲一項持續實驗,並將繼續完善我們的方法。"