微軟近日發佈了一款全新的 AI 系統 MAI-DxO,旨在顯著提升複雜醫療病例的診斷準確性。據悉,該系統的診斷準確率是經驗豐富醫生的四倍,同時能夠將醫療成本降低近70%。這一技術通過一個新的基準測試進行評估,模擬了真實的逐步診斷過程。
研究團隊在其論文《利用語言模型進行順序診斷》中詳細介紹了該系統,認爲其在面對挑戰性病例時,在準確性和成本效益方面顯著優於人類醫生。爲了提供更真實的測試結果,團隊創建了順序診斷基準(SDBench)。與傳統的醫學 AI 測試不同,SDBench 並非一次性提供所有信息,而是模擬臨牀決策的順序過程。
SDBench 的測試案例來源於《新英格蘭醫學雜誌》的304個複雜病例。測試中,醫生或 AI 診斷師首先獲得一個簡要的病例摘要,然後需主動請求更多信息,通過詢問針對性的問題或要求檢查來獲取詳細資料。該系統通過 “門控模型” 控制信息的發佈,甚至可以生成某些檢測的合成結果,以防止無意間泄露提示信息。
在測試中,來自美國和英國的21名經驗豐富的醫生的診斷準確率爲19.9%,每個病例的平均費用爲2963美元。相比之下,微軟的 MAI-DxO 結合 OpenAI 的 o3模型,達到了79.9% 的準確率,且平均成本爲2397美元。MAI-DxO 的主要進步在於成本的顯著降低。儘管 o3模型在標準模型中達到78.6% 的最高準確率,但其平均費用高達7850美元。而通過 MAI-DxO 進行的診斷,準確率略有提升,成本卻幾乎降低了70%。
MAI-DxO 通過模擬一個虛擬的醫生團隊來提升性能。團隊內部分別由 “假設醫生”、“測試選擇醫生”、“質疑醫生”、“成本監控醫生” 和 “檢查清單醫生” 組成。這樣的結構旨在防止系統過早固定於某一假設。
然而,研究人員也承認了一些限制因素。SDBench 僅基於複雜的教學案例,未能反映日常診療中常見病症的分佈。成本計算只是粗略估算,未考慮現實世界中的多種因素。此外,參與的醫生爲全科醫生,通常在面對複雜病例時會轉介給專家,他們的評估也未利用外部資源。
劃重點:
🔍 MAI-DxO 系統的診斷準確率是經驗醫生的四倍,成本降低近70%。
💡 SDBench 測試模擬真實的逐步診斷過程,通過動態請求信息提升準確性。
🩺 研究指出系統性能優越,但存在針對複雜病例的限制與挑戰。