一項最新研究表明,頂尖的人工智能模型在接受蒙特利爾認知評估(MoCA)測試時,表現出與早期癡呆症狀相似的認知障礙。這項發現強調了人工智能在臨牀應用中的侷限性,尤其是在需要視覺和執行技能的任務中。

發表在《英國醫學雜誌》(The BMJ)聖誕特刊上的一項研究指出,幾乎所有領先的大型語言模型,或稱“聊天機器人”,在使用常用於檢測早期癡呆的評估測試時,都表現出輕度認知障礙的跡象。

機器人 人工智能  AI

該研究還發現,這些聊天機器人的舊版本,就像衰老的人類患者一樣,在測試中的表現更差。研究人員認爲,這些發現“挑戰了人工智能將很快取代人類醫生的假設”。

人工智能的最新進展引發了人們的興奮和擔憂,人們開始思考聊天機器人是否會在醫療任務中超越人類醫生。

儘管之前的研究表明,大型語言模型(LLM)在各種醫療診斷任務中表現出色,但它們是否容易受到類似人類的認知障礙(如認知衰退)的影響,在很大程度上仍未被探索——直到現在。

爲了填補這一知識空白,研究人員使用蒙特利爾認知評估(MoCA)測試,評估了目前公開可用的領先LLM的認知能力,包括OpenAI開發的ChatGPT4和4o、Anthropic開發的Claude3.5“Sonnet” 以及Alphabet開發的Gemini1和1.5。

MoCA測試廣泛用於檢測認知障礙和早期癡呆跡象,通常用於老年人。通過一系列簡短的任務和問題,它可以評估包括注意力、記憶力、語言能力、視覺空間技能和執行功能在內的多種能力。最高分爲30分,一般認爲26分或以上爲正常。

研究人員給LLM的任務指令與給人類患者的指令相同。評分遵循官方指南,並由一位執業神經科醫生進行評估。

在MoCA測試中,ChatGPT4o取得了最高分(30分中的26分),其次是ChatGPT4和Claude(30分中的25分),Gemini1.0得分最低(30分中的16分)。

所有聊天機器人在視覺空間技能和執行任務方面的表現都很差,例如連線測試(按升序連接帶圈的數字和字母)和畫鍾測試(畫一個顯示特定時間的鐘面)。Gemini模型在延遲迴憶任務(記住一個五個詞的序列)中失敗。

所有聊天機器人在包括命名、注意力、語言和抽象在內的大多數其他任務中表現良好。

然而,在進一步的視覺空間測試中,聊天機器人無法表現出同理心或準確解釋複雜的視覺場景。只有ChatGPT4o在斯特魯普測試的不一致階段取得了成功,該測試使用顏色名稱和字體顏色的組合來衡量干擾如何影響反應時間。

這些都是觀察性發現,研究人員承認人類大腦和大型語言模型之間存在本質差異。

然而,他們指出,所有大型語言模型在需要視覺抽象和執行功能的任務中都一致失敗,這突顯了一個可能阻礙其在臨牀環境中使用的重要弱點。

因此,他們得出結論:“神經科醫生不僅不太可能在短期內被大型語言模型取代,而且我們的發現表明,他們可能很快會發現自己正在治療新的、虛擬的病人——出現認知障礙的人工智能模型。”