最新の研究によると、最先端の人工知能モデルは、モントリオール認知検査(MoCA)を受けると、早期認知症と類似した認知障害を示すことが分かりました。この発見は、特に視覚と実行能力を必要とするタスクにおいて、人工知能の臨床応用における限界を浮き彫りにしています。

英国医学雑誌(The BMJ)のクリスマス特集号に掲載された研究では、ほとんどすべての主要な大規模言語モデル、いわゆる「チャットボット」が、早期認知症の検出によく使用される評価テストを使用すると、軽度の認知障害の兆候を示すことが指摘されています。

ロボット 人工知能 AI

この研究では、高齢の人間患者と同様に、これらのチャットボットの旧バージョンの方がテストの結果が悪かったことも判明しました。研究者らは、これらの発見は「人工知能がすぐに人間の医師に取って代わるという仮説に疑問を呈する」と考えています。

人工知能の最新の進歩は、人々の興奮と懸念を引き起こしており、チャットボットが医療タスクにおいて人間の医師を凌駕するかどうかが議論されています。

以前の研究では、大規模言語モデル(LLM)が様々な医療診断タスクで優れた性能を示していることが示されていましたが、それらが人間と同様の認知障害(認知機能低下など)の影響を受けやすいかどうかは、これまでほとんど調査されていませんでした。

この知識の空白を埋めるために、研究者らはモントリオール認知検査(MoCA)を使用して、OpenAIが開発したChatGPT4と4o、Anthropicが開発したClaude3.5「Sonnet」、Alphabetが開発したGemini1と1.5など、現在公開されている主要なLLMの認知能力を評価しました。

MoCAテストは、認知障害と早期認知症の兆候を検出するために広く使用されており、通常は高齢者に使用されます。一連の簡単なタスクと質問を通じて、注意、記憶力、言語能力、視空間能力、実行機能など、様々な能力を評価します。最高点は30点で、一般的に26点以上が正常と見なされます。

研究者らは、LLMへのタスク指示を、人間の患者への指示と同じにしました。採点は公式ガイドラインに従って行われ、開業医である神経科医によって評価されました。

MoCAテストでは、ChatGPT4oが最高点(30点中26点)を記録し、次いでChatGPT4とClaude(30点中25点)、Gemini1.0が最低点(30点中16点)でした。

すべてのチャットボットは、視空間能力と実行タスク、例えば線つなぎテスト(番号と文字を昇順に繋ぐ)や時計描画テスト(特定の時間を示す時計を描く)で低い成績でした。Geminiモデルは、遅延想起タスク(5語の列を覚える)で失敗しました。

命名、注意、言語、抽象など、他のほとんどのタスクでは、すべてのチャットボットは良好な成績でした。

しかし、さらに視空間テストを行うと、チャットボットは共感性を示したり、複雑な視覚シーンを正確に解釈したりすることができませんでした。干渉が反応時間にどのように影響するかを測定するストループテストの一貫性のない段階で成功したのは、ChatGPT4oだけでした。

これらは観察に基づく発見であり、研究者らは人間の脳と大規模言語モデルの間には本質的な違いがあると認めています。

しかし、彼らは、すべての大規模言語モデルが視覚的抽象化と実行機能を必要とするタスクで一貫して失敗していることを指摘しており、これは臨床環境での使用を妨げる可能性のある重要な弱点であることを強調しています。

したがって、彼らは次のように結論づけています。「神経科医は、短期的に大規模言語モデルに取って代わられる可能性が低いだけでなく、私たちの発見は、彼らがすぐに新しい、仮想の患者、つまり認知障害のある人工知能モデルを治療していることに気づく可能性があることを示しています。」