微軟首席執行官薩蒂亞·納德拉近日在社交平臺宣佈,微軟正式推出突破性醫療AI系統 MAI-DxO。這款創新系統以其獨特的**“模型無關”設計**脫穎而出,能夠靈活適配不同廠商和能力的語言模型,從而普遍提升其診斷性能。更令人振奮的是,MAI-DxO不僅能模擬真實醫生的診斷流程,還在測試中展現出遠超專業醫生的診斷準確率,同時大幅降低了醫療診斷的成本。
微軟公佈的測試數據顯示,在針對《新英格蘭醫學雜誌》56例隱藏測試集的對比中,21名擁有十年以上經驗的專業醫生平均診斷準確率僅爲19.9%。然而,MAI-DxO在無預算配置下使用OpenAI的o3模型時,準確率高達81.9%;在集成模式下更是達到了驚人的85.5%,這一表現是專業醫生準確率的四倍以上。
MAI-DxO的核心創新在於其模擬了真實醫療團隊的協作模式,通過一組具有不同角色的虛擬醫生共同解決診斷問題,從而在診斷準確性和成本效益方面取得了顯著突破。這支虛擬醫生團隊包括負責維護和更新鑑別診斷列表的Dr. Hypothesis;每輪選擇最具區分度檢查的Dr. Test-Chooser;充當監督員、識別偏差並提出挑戰性建議的Dr. Challenger;倡導成本意識、優化檢查方案的Dr. Stewardship;以及負責幕後質量控制、確保推理一致性的Dr. Checklist。
爲了適應不同醫療場景對成本、效率和準確性的需求,MAI-DxO提供了五種集成模式。這些模式涵蓋了從僅依賴初始病例摘要進行快速初步診斷的Instant Answer模式,適用於緊急或資源匱乏場景;到僅通過提問診斷、模擬初級診療的Question Only模式;引入動態預算控制機制的Budgeted模式;以最大化診斷準確性爲目標、處理複雜疑難病例的No Budget模式;以及通過模擬多個醫生團隊並行工作,進一步提升診斷準確性的Ensemble模式。
伴隨MAI-DxO的發佈,微軟還推出了一項專業的醫療序貫診斷基準SDBench。這個交互式評估框架將《新英格蘭醫學雜誌》中304個具有挑戰性的診斷案例轉化爲逐步診斷場景,爲評估人類醫生和AI的序貫診斷能力提供了真實素材。在SDBench中,“守門人”智能體模擬信息獲取過程,而“法官”智能體則對診斷結果進行基於臨牀實質的多維度綜合評估,同時將成本納入評估指標,爲醫療AI診斷樹立了新的行業標準。