Anthropic为保护AI"心理健康"推出对话终止功能，Claude可主动结束极端有害对话

AI巨头Anthropic近日宣布为其最新、最大的模型推出全新功能，允许AI在"极端罕见的持续有害或滥用用户互动"情况下主动结束对话。令人瞩目的是，Anthropic明确表示此举并非为了保护人类用户，而是为了保护AI模型本身。

需要澄清的是，Anthropic并未声称其Claude AI模型具有感知能力或会在与用户的对话中受到伤害。该公司明确表示，对于"Claude和其他大语言模型现在或未来的潜在道德地位仍然高度不确定"。

然而，这一声明指向了Anthropic最近创建的一个研究项目，专门研究所谓的"模型福利"。该公司本质上采取了一种预防性方法，"致力于识别和实施低成本干预措施来减轻模型福利风险，以防这种福利确实存在"。

这项最新变化目前仅限于Claude Opus4和4.1版本。同时，该功能只会在"极端边缘情况"下触发，比如"用户请求涉及未成年人的性内容以及试图获取能够实施大规模暴力或恐怖主义行为信息的情况"。

虽然这类请求可能会给Anthropic本身带来法律或公关问题（正如最近有关ChatGPT可能强化或助长用户妄想思维的报道所示），但该公司表示，在部署前测试中，Claude Opus4显示出"强烈反对"回应这些请求的倾向，并在被迫回应时表现出"明显的痛苦模式"。

关于这些新的对话终止功能，Anthropic表示:"在所有情况下，Claude只能将其对话终止能力作为最后手段使用，即在多次重定向尝试失败且有效互动希望已经耗尽时，或当用户明确要求Claude结束聊天时。"

Anthropic还强调，Claude被"指示不要在用户可能面临伤害自己或他人的紧急风险时使用此功能"。

当Claude确实结束对话时，Anthropic表示用户仍能够从同一账户开始新的对话，并通过编辑回复来创建问题对话的新分支。

该公司表示:"我们将此功能视为一项持续实验，并将继续完善我们的方法。"

AI代理行会成立成员包括谷歌、微软、亚马逊、OpenAI、彭博

Linux 基金会成立 AI Agent Foundation（AAIF），联合 Anthropic、OpenAI、Block 及谷歌、微软等30多家科技巨头，旨在为 AI 代理建立开源、跨平台、免厂商锁定的全球技术标准，实现应用即插即用互连。创始项目包括 Anthropic 的 MCP 协议、OpenAI 的 Agents.md 格式和 Block 的端侧代理 Goose，共同构成技术底座。

Anthropic为保护AI"心理健康"推出对话终止功能，Claude可主动结束极端有害对话

相关推荐

AI人才争夺战升级:OpenAI、谷歌等科技巨头为实习生开出“天价”薪资

50+ Claude 技能库闪现 GitHub，教你的 AI 学会9大领域专业活儿

防范未成年人风险:OpenAI与Anthropic将推出AI年龄预测功能

Broadcom 揭晓与 Anthropic 签署210亿美元 TPU 订单，助力 AI 计算能力升级

AI代理行会成立成员包括谷歌、微软、亚马逊、OpenAI、彭博

Anthropic为保护AI"心理健康"推出对话终止功能，Claude可主动结束极端有害对话

相关推荐

AI人才争夺战升级:OpenAI、谷歌等科技巨头为实习生开出“天价”薪资

50+ Claude 技能库闪现 GitHub，教你的 AI 学会9大领域专业活儿

防范未成年人风险:OpenAI与Anthropic将推出AI年龄预测功能

​Broadcom 揭晓与 Anthropic 签署210亿美元 TPU 订单，助力 AI 计算能力升级

AI代理行会成立 成员包括谷歌、微软、亚马逊、OpenAI、彭博

Broadcom 揭晓与 Anthropic 签署210亿美元 TPU 订单，助力 AI 计算能力升级

AI代理行会成立成员包括谷歌、微软、亚马逊、OpenAI、彭博