米国マサチューセッツ総合病院のMESHインキュベーターチームが行なった、生成型人工知能(AI)の臨床的推論能力に関する最新研究によると、医療分野におけるAIの浸透が進む中でも、現実的な診療を模擬した論理的な連鎖においては依然として重要な欠点が存在していることが明らかになった。関連する研究成果は権威ある学術雑誌「JAMA Network Open」に掲載され、現在主流のモデルが独立して臨床診療を行う能力を持っていないことを明確に指摘している。
この研究では、ChatGPT、DeepSeek、Claude、Gemini、Grokを含む21種類の大規模言語モデルを対象とし、29の既知の臨床症例を用いて複数ラウンドのテストを行なった。実験では、患者の症状、検査データ、画像結果を段階的に提示することで、医師の動的な診療プロセスを高いレベルで模倣した。その結果、完全な情報が得られた状態では、すべてのモデルが正しい最終診断を示す正確性が90%を超えていた。しかし、臨床的推論の中心となる「鑑別診断」においては、80%以上のモデルが不十分な性能を示し、いくつかの潜在的な疾患に対して体系的な分析や選別ができなかった。
この違いを定量化するために、研究チームはPrIME-LLMという統合評価指標を導入し、初期診断から検査決定、治療計画策定までの全プロセスをカバーする。評価の結果、各モデルの総合スコアは64%から78%の間であり、AIが情報が整っているときに「答えを明らかにする」のは得意であるものの、情報が不十分な場合でのオープンな論理的推論には長けていないことを示している。
