由美國麻省總醫院MESH孵化器團隊開展的一項針對生成式人工智能(AI)臨牀推理能力的最新研究顯示,儘管AI在醫療領域的滲透日益加深,但在模擬真實診療的邏輯鏈條中仍存在顯著短板。相關研究成果已發表於權威期刊《JAMA Network Open》,明確指出當前主流模型尚不具備獨立承擔臨牀診療任務的能力。

該研究選取了包括ChatGPT、DeepSeek、Claude、Gemini及Grok在內的21種大語言模型,通過29個已知臨牀病例進行多輪測試。實驗通過逐步釋放患者症狀、實驗室數據及影像結果,高度模擬了醫生的動態診療過程。數據顯示,在獲得完整信息的前提下,所有模型給出正確最終診斷的準確率均超過90%。然而,在臨牀推理的核心環節——“鑑別診斷”中,超過80%的模型表現欠佳,無法對多種潛在疾病進行系統性分析與篩選。

爲量化這一差異,研究團隊引入了PrIME-LLM綜合評價指標,覆蓋從初期診斷、檢查決策到治療方案制定的全流程。評測結果顯示,各模型綜合得分在64%至78%之間,反映出AI更擅長在信息完備時“揭曉答案”,而非在信息不充分的情況下進行開放性邏輯推演。

儘管新一代模型在處理複雜數據資料方面較舊版本有明顯進步,但研究團隊強調,大語言模型目前仍定位爲輔助工具,在缺乏專業監督的情況下直接用於臨牀實踐仍具風險。這一發現爲AI醫療的未來演進提供了理性座標:從簡單的“結果擬合”向複雜的“邏輯推理”跨越,將是醫療大模型邁向專業化應用的關鍵門檻。