近日,斯坦福大學發佈了一項有關臨牀醫療 AI 模型的全面評測,DeepSeek R1以66% 的勝率和0.75的宏觀平均分,在九個前沿大模型中脫穎而出,成爲冠軍。這一評測的亮點在於,它不僅關注傳統醫療執照考試題,更深入到臨牀醫生的日常工作場景,給出了更切實的評估。

評測團隊構建了一個名爲 MedHELM 的綜合評估框架,包含35個基準測試,覆蓋22個醫療任務子類別。這個框架的設計經過了29名來自14個醫學專科的執業醫生驗證,確保了其合理性與實用性。最終,評測結果揭示了 DeepSeek R1的優越性能,緊隨其後的是 o3-mini 和 Claude3.7Sonnet。

image.png

具體而言,DeepSeek R1在各項基準測試中表現穩健,勝率標準差僅爲0.10,表明其在不同測試中的穩定性。而 o3-mini 則在臨牀決策支持類別的基準測試中表現突出,以64% 的勝率和0.77的最高宏觀平均分位居第二。其他模型如 Claude3.5和3.7Sonnet 分別以63% 和64% 的勝率緊隨其後。

image.png

值得一提的是,此次評測還創新性地採用了大語言模型評審團(LLM-jury)方法進行結果評估,結果顯示該方法與臨牀醫生的評分高度一致,證明了其有效性。此外,研究團隊還進行了成本效益分析,發現推理模型的使用成本相對較高,而非推理模型成本較低,適合不同需求的用戶。

此次評測不僅爲醫療 AI 的發展提供了寶貴的數據支持,也爲未來的臨牀實踐提供了更多的可能性和靈活性。