在現代醫療體系中,電子病歷(EHR)無疑是核心數據形式,記錄了患者從診斷到治療的各項關鍵信息。這些數據不僅爲醫生提供決策支持,也推動了醫療人工智能的發展。南洋理工大學的研究團隊近期推出了首個全面評測大型語言模型(LLM)處理電子病歷能力的基準 ——EHRStruct,標誌着醫療 AI 研究的一大步。

EHRStruct 基準涵蓋了 11 項核心任務,共計 2200 個樣本,任務設計充分考慮了臨牀場景、認知層級及功能類別,形成了一套嚴謹的評測框架。研究人員表示,通用大模型在處理結構化電子病歷時表現出色,超越了專門針對醫學領域設計的模型。同時,他們還發現,數據驅動的任務性能更強,輸入格式和微調方法對模型的表現也有顯著影響。

在評測中,研究團隊對 20 個主流的 LLM 和 11 種增強方法進行了系統性比較,結果顯示,結合 EHRMaster 框架和 Gemini 模型後,LLM 在處理結構化 EHR 時的性能顯著提升,甚至超越了當前最先進的模型。該研究成果已被 AAAI 2026 會議錄用,預計將在未來的學術交流中引發廣泛關注。

爲了推動這一領域的發展,研究團隊還推出了 “EHRStruct 2026 - LLM 結構化電子病歷挑戰賽”,旨在爲研究人員提供一個統一、可比較的評測平臺,促進對 LLM 在結構化電子病歷處理能力的深入研究。

EHRStruct 的建立過程可分爲四個階段:任務合成、任務體系構建、任務樣本抽取和評測流程搭建。由醫學專家和計算機科學家共同合作,確保了評測的臨牀相關性和可重複性。這一評測框架不僅具有科學性和嚴謹性,也爲後續的研究提供了豐富的數據支持。

這一重要研究的發佈,不僅爲醫療 AI 的進步提供了新的工具和方法,也爲今後的臨牀決策與數據分析提供了更爲可靠的支持。我們期待更多的醫療 AI 應用在實際工作中落地,實現更高效的醫療服務。