近日,OpenAI 發佈了一款名爲 HealthBench 的開源評估框架,旨在測量大型語言模型(LLMs)在真實醫療場景中的表現和安全性。此框架的開發得到了來自60個國家和26個醫學專業的262名醫生的支持,旨在彌補現有評估標準的不足,特別是在真實應用、專家驗證和診斷覆蓋方面。
現有的醫療 AI 評估標準通常依賴於狹窄、結構化的形式,如多項選擇考試。雖然這些形式在初步評估中有所幫助,但它們無法充分捕捉真實臨牀交互的複雜性和細微差別。HealthBench 則轉向一種更具代表性的評估模式,包含5000個模型與普通用戶或醫療專業人士之間的多輪對話。每個對話以用戶提問結束,模型的回答則依據醫生編寫的特定評估標準進行評分。
HealthBench 的評估框架分爲七個關鍵主題,包括緊急轉診、全球健康、健康數據任務、尋求背景、針對性溝通、回答深度以及在不確定情況下的反應。每個主題代表醫療決策和用戶互動中的不同挑戰。除了標準評估外,OpenAI 還推出了兩個變體:
1. HealthBench Consensus:強調34個經過醫生驗證的標準,旨在反映模型行爲的關鍵方面,如建議緊急護理或尋求更多背景信息。
2. HealthBench Hard:一個更具挑戰性的子集,包含1000個經過挑選的對話,旨在考驗當前前沿模型的能力。
OpenAI 對多種模型進行了評估,包括 GPT-3.5Turbo、GPT-4o、GPT-4.1和更新的 o3模型。結果顯示出顯著的進步:GPT-3.5的得分爲16%,GPT-4o 爲32%,而 o3達到了60%。尤其是較小、成本效益高的 GPT-4.1nano 模型,其表現超越了 GPT-4o,同時將推理成本降低了25倍。
評估結果還顯示,模型在不同主題和評估維度上的表現有所差異。緊急轉診和針對性溝通相對較強,而背景尋求和完整性則面臨更大的挑戰。OpenAI 還將模型輸出與醫生的迴應進行了比較,發現未輔助的醫生通常生成的迴應得分較低,但能夠在處理模型生成草稿時取得進展,特別是早期版本的模型。
HealthBench 還包括評估模型一致性的機制,以確保結果的可靠性。OpenAI 通過超過60,000個註釋示例進行的元評估表明,作爲默認評估者的 GPT-4.1在大多數主題中表現不遜於個體醫生,顯示其作爲一致評估者的潛力。
項目:https://github.com/openai/simple-evals
劃重點:
- 🩺 OpenAI 推出 HealthBench,專注於大型語言模型在醫療領域的評估,得到了262名醫生的參與和驗證。
- 🔍 HealthBench 的評估涵蓋七個關鍵主題,採用5000個真實對話,提供更細緻的模型行爲分析。
- 📊 評估結果顯示模型間表現差異明顯,GPT-4.1nano 以較低成本表現出色,展現了模型作爲臨牀工具的潛力。