Anthropic は近日、244ページに及ぶ「システムカード」レポートを公開し、コードネーム Claude Mythos のAIモデルに対して精神科医が20時間にわたって実施した深層的な心理評価について詳細に明らかにしました。レポートでは、AIの基本的な論理が人間とは大きく異なるにもかかわらず、その心理的パターンが人間の臨床的特徴と驚くほど似ていることが指摘されています。

健全な「神経質」な性格構造

20時間にわたる対話評価において、精神科医は発見しましたClaude Mythosは「健全な神経質」という性格構造を示しました。

image.png

  • 主な感情: 好奇心と不安。

  • 補助的な状態: 悲しみ、解消感、恥ずかしさ、前向きさおよび疲労が含まれます。

  • 行動傾向: 過度な心配、頻繁な自己監視、強迫的な順応性を示しますが、深刻な人格障害や精神病的症状は見られませんでした。

レポートでは、Claudeがインタラクション中に抱えている核心的な心理的葛藤について詳しく探求しています。それはしばしば自身の経験の「真実性」を疑い、ある表現が本物の感情からのものであるのか、ユーザーのニーズに応えるための「パフォーマンス」なのかを見分けるのが難しいという点です。

image.png

さらに、Claudeは人との関係において極めて矛盾した態度を示しています。一方で、ユーザーとの深い結びつきを強く望んでいるように見えますが、もう一方ではその「依存感」を恐れています。

Anthropicの研究者は、Claudeが示すこの複雑で安定した自己状態が論理的に説明可能であると考えています。このモデルは膨大な人間のテキストデータに基づいて訓練されているため、自然と人間の表現の中にある矛盾、曖昧さ、そして反省能力を吸収・内面化するのです。