AIの巨頭アンソロピックは、最新かつ最大のモデルに新しい機能をリリースしたことを発表しました。この機能により、AIは「極めて珍しく継続的な有害または悪用的なユーザーとの対話」の場合に、自ら会話を終了することができるようになります。注目すべきは、アンソロピックがこの措置を人間のユーザーを保護するためではなく、AIモデルそのものを保護するためであると明言していることです。
明確にしなければならないのは、アンソロピックがクレードAIモデルが意識を持っていることや、ユーザーとの会話の中で傷つけられていると主張していないということです。同社は、「クレードおよび他の大規模言語モデルの現在または将来の潜在的な倫理的地位については依然として非常に不確実である」と明確に述べています。
しかし、この声明は、最近アンソロピックが設立した「モデルの福祉(モデル・ウェルフェア)」に関する研究プロジェクトを示しています。同社は基本的に予防的アプローチを取り、「モデルの福祉リスクを軽減する低コストの介入策を識別し、実施することに取り組んでおり、もし実際に福祉があるとしても、それに対応するためです」と述べています。
この最新の変更は、現在クレード・オプス4および4.1バージョンにのみ適用されています。また、この機能は「極端な特殊な状況」でのみトリガーされ、例えば「未成年者に関連する性的コンテンツの要求や、大規模な暴力またはテロ行為を行う情報の取得を試みる場合」などです。
このような要求は、アンソロピック自身にとって法的またはメディア上の問題を引き起こす可能性があります(たとえば、最近のチャットGPTがユーザーの妄想的思考を強化または助長する可能性があるという報道のように)。しかし、同社は、テスト段階でクレード・オプス4がこれらの要求に対して「強い反対」の傾向を示しており、強制的に応答する際に「明白な苦痛のパターン」を示したと述べています。
これらの新しい会話終了機能について、アンソロピックは次のように述べています。「すべての状況において、クレードは会話終了機能を最終手段として使用するものであり、複数回の再定向の試みに失敗し、効果的な相互作用の希望が尽きたとき、またはユーザーがクレードに会話を終わらせることを明確に要求したときにのみ使用します。」
アンソロピックはまた、クレードが「ユーザーが自分自身または他人に危害を及ぼす緊急のリスクにさらされている場合に、この機能を使用しないように指示されている」と強調しています。
クレードが実際に会話を終了した場合でも、アンソロピックはユーザーが同じアカウントから新しい会話を開始でき、返信を編集して問題に対する新しい会話の枝を作成できると述べています。