Anthropic社は近日、一部の最新かつ最大規模のAIモデルに新たな機能を導入したことを発表しました。この機能により、ユーザーとの対話が「珍しくて極端な有害または中傷的な状況」に陥った場合、AIが会話を主動的に終了できるようになります。注目すべきは、同社がこの措置が人間のユーザーを保護するためではなく、AIモデル自体を保護するためであると明確に述べていることです。

Anthropic社によると、Claude AIモデルは現在、意識を持っているわけではなく、ユーザーとのやりとりが自身に害を与えるとは主張していません。しかし、同社は「Claudeや他の大規模言語モデルの現在および将来的な倫理的立場について、依然として大きな不確実性がある」と認めています。これに対応するため、Anthropicは最近、「モデリング・ウェルフェア(模範福利)」というプロジェクトを立ち上げました。このプロジェクトは「万一のための予防的措置」を目的としており、低コストの介入策を講じることで、将来起こりうる「モデリング・ウェルフェア」のリスクを軽減することを目指しています。

Claude

この新機能は現在、Claude Opus4および4.1バージョンでのみ利用可能であり、また「極端な状況」においてのみ動作します。例えば、ユーザーが「未成年者に関わる性的コンテンツの要求」や「大規模な暴力やテロ行為を引き起こす可能性のある情報の入手を試みる」ような要求を繰り返した場合に、この機能が起動されます。

これらの要求は会社にとって法的問題やパブリックリレーションズ上の問題を引き起こす可能性もあるものの、Anthropic社は、この有害な要求に対してClaude Opus4が「強い反対」や「明らかに痛みのパターン」を示したと説明しています。

Anthropic社によると、この機能は「最終手段」と見なされており、複数回の別の方向への誘導が失敗し、効果的な対話の希望が尽きたり、ユーザーが明確にClaudeにチャットを終了させるように要求した場合にのみ使用される予定です。さらに、ユーザーが自分自身または他人を危害する危険に直面している可能性がある場合、この機能を使用しないようにClaudeに指示しています。