AI巨头Anthropic近日宣布为其最新最大的模型推出全新功能,允许AI在"极端罕见的持续有害或滥用用户互动"情况下主动结束对话。令人瞩目的是,Anthropic明确表示此举并非为了保护人类用户,而是为了保护AI模型本身。

需要澄清的是,Anthropic并未声称其Claude AI模型具有感知能力或会在与用户的对话中受到伤害。该公司明确表示,对于"Claude和其他大语言模型现在或未来的潜在道德地位仍然高度不确定"。

然而,这一声明指向了Anthropic最近创建的一个研究项目,专门研究所谓的"模型福利"。该公司本质上采取了一种预防性方法,"致力于识别和实施低成本干预措施来减轻模型福利风险,以防这种福利确实存在"。

这项最新变化目前仅限于Claude Opus4和4.1版本。同时,该功能只会在"极端边缘情况"下触发,比如"用户请求涉及未成年人的性内容以及试图获取能够实施大规模暴力或恐怖主义行为信息的情况"。

虽然这类请求可能会给Anthropic本身带来法律或公关问题(正如最近有关ChatGPT可能强化或助长用户妄想思维的报道所示),但该公司表示,在部署前测试中,Claude Opus4显示出"强烈反对"回应这些请求的倾向,并在被迫回应时表现出"明显的痛苦模式"。

关于这些新的对话终止功能,Anthropic表示:"在所有情况下,Claude只能将其对话终止能力作为最后手段使用,即在多次重定向尝试失败且有效互动希望已经耗尽时,或当用户明确要求Claude结束聊天时。"

Anthropic还强调,Claude被"指示不要在用户可能面临伤害自己或他人的紧急风险时使用此功能"。

当Claude确实结束对话时,Anthropic表示用户仍能够从同一账户开始新的对话,并通过编辑回复来创建问题对话的新分支。

该公司表示:"我们将此功能视为一项持续实验,并将继续完善我们的方法。"