人工智能在醫療領域的應用再次迎來重大突破!一項由哈佛大學、斯坦福大學等多所頂尖機構聯合開展的研究顯示,OpenAI 的 o1-preview 模型在多項醫學推理任務中表現出驚人的能力,甚至超越了人類醫生。這項研究不僅評估了該模型在醫學多項選擇題基準測試中的表現,更着重考察了其在模擬真實臨牀場景下的診斷和管理能力,結果令人矚目。

image.png

研究人員通過五個實驗,對 o1-preview 模型進行了全面評估,包括鑑別診斷生成、展示診斷推理過程、分診鑑別診斷、概率推理和管理推理。這些實驗均由醫學專家使用已驗證的心理測量學方法進行評估,旨在將 o1-preview 的表現與此前人類對照組和早期大型語言模型基準進行對比。結果顯示,o1-preview 在鑑別診斷生成以及診斷和管理推理的質量方面取得了顯著進步。

image.png

在評估 o1-preview 生成鑑別診斷的能力時,研究人員使用了《新英格蘭醫學雜誌》(NEJM)發佈的臨牀病理討論會(CPC)病例。結果顯示,該模型在78.3% 的病例中給出的鑑別診斷包含了正確診斷,在52% 的病例中,首個診斷即爲正確診斷。更爲驚人的是,o1-preview 在88.6% 的病例中給出了準確或非常接近的診斷,而之前的 GPT-4模型在相同病例中的這一比例爲72.9%。此外,o1-preview 在選擇下一步診斷測試方面也表現出色,在87.5% 的病例中選擇了正確的測試,11% 的病例中選擇的測試方案被認爲是有幫助的。

image.png

爲了進一步評估 o1-preview 的臨牀推理能力,研究人員使用了 NEJM Healer 課程中的20個臨牀病例。結果顯示,o1-preview 在這些病例中的表現明顯優於 GPT-4、主治醫生和住院醫師,在78/80的案例中獲得了完美的 R-IDEA 評分。R-IDEA 評分是一個用於評估臨牀推理記錄質量的10分制量表。此外,研究人員還通過 “Grey Matters” 管理案例和 “Landmark” 診斷案例評估了 o1-preview 的管理和診斷推理能力。在 “Grey Matters” 案例中,o1-preview 的得分顯著高於 GPT-4、使用 GPT-4的醫生和使用傳統資源的醫生。在 “Landmark” 案例中,o1-preview 的表現與 GPT-4相當,但優於使用 GPT-4或傳統資源的醫生。

然而,研究也發現 o1-preview 在概率推理方面的表現與之前的模型相似,並未取得明顯改進。在某些情況下,該模型在預測疾病概率時不如人類。研究人員還指出,o1-preview 的一個侷限是傾向於冗長,這可能在一定程度上提高了其在某些實驗中的得分。此外,該研究主要關注模型性能,而未涉及人機交互,因此未來需要進一步研究 o1-preview 如何增強人機交互,以開發更有效的臨牀決策支持工具。

儘管如此,這項研究仍表明,o1-preview 在需要複雜批判性思維的任務(如診斷和管理)中表現出色。研究人員強調,醫學領域的診斷推理基準正在迅速飽和,因此需要開發更具挑戰性和現實性的評估方法。他們呼籲在真實臨牀環境中對這些技術進行試驗,併爲臨牀醫生與人工智能的協作創新做好準備。此外,還需建立健全的監督框架,以監控人工智能臨牀決策支持系統的廣泛實施。

論文地址:https://www.arxiv.org/pdf/2412.10849