AI醫療進入“深水區”:研究指生成式模型尚難獨立承擔臨牀推理重任

由美國麻省總醫院MESH孵化器團隊開展的一項針對生成式人工智能（AI）臨牀推理能力的最新研究顯示，儘管AI在醫療領域的滲透日益加深，但在模擬真實診療的邏輯鏈條中仍存在顯著短板。相關研究成果已發表於權威期刊《JAMA Network Open》，明確指出當前主流模型尚不具備獨立承擔臨牀診療任務的能力。

該研究選取了包括ChatGPT、DeepSeek、Claude、Gemini及Grok在內的21種大語言模型，通過29個已知臨牀病例進行多輪測試。實驗通過逐步釋放患者症狀、實驗室數據及影像結果，高度模擬了醫生的動態診療過程。數據顯示，在獲得完整信息的前提下，所有模型給出正確最終診斷的準確率均超過90%。然而，在臨牀推理的核心環節——“鑑別診斷”中，超過80%的模型表現欠佳，無法對多種潛在疾病進行系統性分析與篩選。

爲量化這一差異，研究團隊引入了PrIME-LLM綜合評價指標，覆蓋從初期診斷、檢查決策到治療方案制定的全流程。評測結果顯示，各模型綜合得分在64%至78%之間，反映出AI更擅長在信息完備時“揭曉答案”，而非在信息不充分的情況下進行開放性邏輯推演。

儘管新一代模型在處理複雜數據資料方面較舊版本有明顯進步，但研究團隊強調，大語言模型目前仍定位爲輔助工具，在缺乏專業監督的情況下直接用於臨牀實踐仍具風險。這一發現爲AI醫療的未來演進提供了理性座標:從簡單的“結果擬合”向複雜的“邏輯推理”跨越，將是醫療大模型邁向專業化應用的關鍵門檻。

AI應用性別鴻溝擴大:研究稱女性生成式AI使用率低22%

演員瑞茜·威瑟斯彭公開呼籲女性多學習使用人工智能，以縮小AI領域的性別參與差距。然而，她的發言也引發討論，被指未充分關注AI的環境代價、數據中心問題及算法偏見等風險。哈佛商學院研究證實，AI使用確實存在明顯性別鴻溝。

Epoch AI測試三大AI文本檢測器:模仿人類文風后最高近三成內容漏檢

Epoch AI研究顯示，主流AI文本檢測器能近乎完美識別普通AI生成內容，但當大語言模型刻意模仿特定作者寫作風格時，準確率明顯下降，科學寫作最難辨別。實驗測試了Pangram、GPTZero和Originality.ai三款工具，採用495篇涵蓋博客、小說、科學的人類原創文本（均創作於ChatGPT問世前），發現風格模仿可有效逃逸檢測。

三星攜手百度智能雲，推出 “蓋樂世 AI” 重磅備案！

三星“蓋樂世 AI”成功通過生成式人工智能服務備案，合作伙伴爲百度智能雲。依據《生成式人工智能服務管理暫行辦法》，該服務被列入近期網信部門公佈的七款新增手機端側AI服務，標誌着三星智能手機將強化本土端側AI能力，提升智能體驗。

AI醫療進入“深水區”:研究指生成式模型尚難獨立承擔臨牀推理重任

相關推薦

AI應用性別鴻溝擴大:研究稱女性生成式AI使用率低22%

拍照即修圖！Adobe推出全新AI相機工具，一鍵開啓智能修圖新時代

Epoch AI測試三大AI文本檢測器:模仿人類文風后最高近三成內容漏檢

三星攜手百度智能雲，推出 “蓋樂世 AI” 重磅備案！

職場社交變“AI重災區”?研究顯示LinkedIn長篇垃圾內容佔比高達41%