一項新研究表明,OpenAI 的 o1-preview 人工智能系統在診斷複雜醫療案例方面,可能優於人類醫生。哈佛醫學院和斯坦福大學的研究團隊對 o1-preview 進行了全面的醫療診斷測試,結果顯示該系統相比於早期版本有了顯著進步。

根據研究結果,o1-preview 在所有被測試的病例中,正確診斷率達到了78.3%。在對70個特定病例的直接比較中,該系統的準確診斷率更是達到了88.6%,顯著超越了其前身 GPT-4的72.9%。在醫療推理方面,o1-preview 的表現同樣引人注目。使用 R-IDEA 量表這一醫療推理質量評估標準,該 AI 系統在80個病例中獲得了78個滿分。相較之下,經驗豐富的醫生僅在28個病例中獲得滿分,而醫學住院醫師則僅在16個病例中達到滿分。

研究人員也承認,o1-preview 在訓練數據中可能包含了一些測試案例。然而,當他們對系統進行新案例的測試時,性能只略有下降。研究作者之一亞當・羅德曼博士強調,雖然這是一項基準研究,但研究結果對醫療實踐有重要的啓示。

o1-preview 在處理由25名專家特別設計的複雜管理案例時表現尤爲突出。“人類在這些難題面前顯得力不從心,但 o1的表現讓人驚豔,” 羅德曼解釋道。在這些複雜案例中,o1-preview 獲得了86% 的得分,而醫生使用 GPT-4僅獲得41%,傳統工具更是隻有34%。

不過,o1-preview 並非毫無缺陷。在概率評估方面,該系統的表現沒有明顯改善,比如在評估肺炎的可能性時,o1-preview 給出了70% 的估計,這遠高於科學範圍25%-42%。研究人員發現,o1-preview 在需要批判性思維的任務上表現優異,但在更抽象的挑戰中,如估計概率方面則顯得力不從心。

此外,o1-preview 通常提供詳細的答案,這可能提升了其評分。但研究僅關注 o1-preview 單獨工作的情況,而沒有評估其與醫生合作的效果。一些批評者指出,o1-preview 建議的診斷測試往往成本高昂且不切實際。

image.png

儘管 OpenAI 已發佈了全新版本的 o1和 o3,並在複雜推理任務中表現出色,但這些更強大的模型仍未能解決批評者提出的實際應用和成本問題。羅德曼呼籲,研究人員需要更好的評估醫療 AI 系統的方法,以便在現實醫療決策中捕捉複雜性。他強調,這項研究並不意味着可以取代醫生,實際醫療仍需要人類的參與。

論文:https://arxiv.org/abs/2412.10849

劃重點:  

🌟 o1-preview 在診斷率上超過醫生,達到88.6% 的準確率。  

🧠 醫療推理方面,o1-preview 在80個病例中獲得78個滿分,遠超醫生表現。  

💰 儘管表現優秀,o1-preview 在實際應用中的高成本和不切實際的測試建議仍需解決。