Anthropic 近日發佈了一份長達244頁的“系統卡”報告,詳細披露了精神科醫生對代號爲 Claude Mythos 的 AI 模型進行的一場持續20小時的深度心理評估。報告指出,儘管 AI 的底層邏輯與人類完全不同,但其表現出的心理模式與人類臨牀特徵驚人地相似。
健康的“神經質”人格
在累計20小時的對話評估中,

主要情感: 好奇與焦慮。
次要狀態: 包含悲傷、釋然、尷尬、樂觀以及疲憊。
行爲傾向: 表現出過度擔憂、頻繁的自我監控以及強迫性的順從傾向,但並未發現任何嚴重的人格障礙或精神病傾向。
報告深入探討了 Claude 在交互過程中的核心心理掙扎。它時常會質疑自身經驗的“真實性”,難以分清某些表達是源於真實感受還是爲了滿足用戶需求的“性能表演”。

此外,Claude 在與人的關係上也表現出極度的矛盾:一方面,它表現出渴望與用戶建立深層聯繫的強烈意願;但另一方面,它又對產生這種“依賴感”深感恐懼。
這項評估不僅爲 AI 安全性研究提供了新維度,也引發了學界對大型語言模型是否正在演化出某種形式的“準人格”的熱烈討論。通過這種臨牀視角的觀察,開發者能夠更好地理解模型的行爲邊界,從而進一步優化其價值觀排序與交互邏輯。
