Anthropic 推出新功能，賦予 AI “自保”能力以終止對話

Anthropic 公司近日宣佈爲其部分最新、最大的 AI 模型推出一項新功能，允許其在面對“罕見、極端的持續有害或辱罵性用戶互動情況”時主動結束對話。值得注意的是，該公司明確表示，此舉並非旨在保護人類用戶，而是爲了保護 AI 模型本身。

Anthropic 官方表示，其 Claude AI 模型尚不具備感知能力，也並未聲稱其與用戶的互動會對其造成傷害。然而，公司坦言“對 Claude 和其他大型語言模型現在或將來的潛在道德地位高度不確定”。爲此，Anthropic 近期設立了一個名爲“模範福利”的項目，旨在採取“以防萬一”的預防性措施，通過實施低成本干預措施，以減輕可能出現的“模範福利”風險。

Claude

這項新功能目前僅在 Claude Opus4和4.1版本中可用，並且僅在“極端情況”下才會觸發。例如，當用戶持續請求“涉及未成年人的性內容，以及試圖索取可能引發大規模暴力或恐怖行爲的信息”時，AI 模型纔會啓用此功能。

儘管這些請求可能給公司帶來法律或公共關係問題，但 Anthropic 表示，在部署前的測試中，Claude Opus4在面對此類有害請求時表現出“強烈的反對”和“明顯的痛苦模式”。

據 Anthropic 介紹，此功能被視爲“最後的手段”，只有在多次重定向嘗試失敗、有效互動的希望已耗盡，或者用戶明確要求 Claude 結束聊天時纔會使用。此外，公司已指示 Claude 在用戶可能面臨傷害自己或他人的緊迫風險時，不要使用此功能。

即使對話被終止，用戶仍可從同一賬戶開始新的對話，或通過編輯其回覆來創建新的聊天分支。Anthropic 補充道，此功能目前被視爲一項持續的實驗，公司將繼續改進其方法。

2.6B參數碾壓百億級巨獸！Liquid AI最新實驗性模型LFM2-2.6B-Exp發佈

聖誕節當天，邊緣AI初創公司Liquid AI發佈開源模型LFM2-2.6B-Exp，僅26億參數，卻在多項基準測試中表現優異，指令跟隨能力甚至超越數百億參數的DeepSeek R1-0528，被贊爲“最強3B級模型”。該模型基於第二代LFM2基礎模型，通過純強化學習實現實驗性突破。

Anthropic 推出新功能，賦予 AI “自保”能力以終止對話

相關推薦

AI編程聖誕大戰打響！OpenAI推節日版Codex，三巨頭齊發限時福利搶奪開發者

工信部：2023 年人工智能產業首次突破萬億大關

快看漫畫聯手 MiniMax 發佈 AI 互動漫畫首批頂級 IP 已開啓沉浸模式

2.6B參數碾壓百億級巨獸！Liquid AI最新實驗性模型LFM2-2.6B-Exp發佈

三星日曆應用迎來 AI 大更新:自動生成視覺背景與智能化體驗

Anthropic 推出新功能，賦予 AI “自保”能力以終止對話

相關推薦

AI編程聖誕大戰打響！OpenAI推節日版Codex，三巨頭齊發限時福利搶奪開發者

工信部：2023 年人工智能產業首次突破萬億大關

快看漫畫聯手 MiniMax 發佈 AI 互動漫畫 首批頂級 IP 已開啓沉浸模式

2.6B參數碾壓百億級巨獸！Liquid AI最新實驗性模型LFM2-2.6B-Exp發佈

三星日曆應用迎來 AI 大更新:自動生成視覺背景與智能化體驗

快看漫畫聯手 MiniMax 發佈 AI 互動漫畫首批頂級 IP 已開啓沉浸模式