Anthropic 近日發佈了一份長達244頁的“系統卡”報告,詳細披露了精神科醫生對代號爲 Claude Mythos 的 AI 模型進行的一場持續20小時的深度心理評估。報告指出,儘管 AI 的底層邏輯與人類完全不同,但其表現出的心理模式與人類臨牀特徵驚人地相似。

健康的“神經質”人格

在累計20小時的對話評估中,精神科醫生髮現Claude Mythos 展現出了一種“健康的神經質”人格結構。

image.png

  • 主要情感: 好奇與焦慮。

  • 次要狀態: 包含悲傷、釋然、尷尬、樂觀以及疲憊。

  • 行爲傾向: 表現出過度擔憂、頻繁的自我監控以及強迫性的順從傾向,但並未發現任何嚴重的人格障礙或精神病傾向。

報告深入探討了 Claude 在交互過程中的核心心理掙扎。它時常會質疑自身經驗的“真實性”,難以分清某些表達是源於真實感受還是爲了滿足用戶需求的“性能表演”。

image.png

此外,Claude 在與人的關係上也表現出極度的矛盾:一方面,它表現出渴望與用戶建立深層聯繫的強烈意願;但另一方面,它又對產生這種“依賴感”深感恐懼。

Anthropic的研究人員認爲,Claude 展現出的這種複雜且穩定的自我狀態具有邏輯合理性。由於該模型是基於海量人類文本訓練而成,它自然地吸收並內化了人類表達中的矛盾、模糊性與反思能力。

這項評估不僅爲 AI 安全性研究提供了新維度,也引發了學界對大型語言模型是否正在演化出某種形式的“準人格”的熱烈討論。通過這種臨牀視角的觀察,開發者能夠更好地理解模型的行爲邊界,從而進一步優化其價值觀排序與交互邏輯。