現代医療システムにおいて、電子カルテ(EHR)は間違いなく中心的なデータ形式であり、患者の診断から治療に至るまでの重要な情報を記録しています。これらのデータは医師の意思決定を支援するだけでなく、医療分野における人工知能の発展にも貢献しています。南洋理工大学の研究チームは最近、大型言語モデル(LLM)が電子カルテを処理する能力を評価するための基準として、初めての包括的なベンチマーク「EHRStruct」をリリースしました。これは医療AI研究における大きな一歩となります。

EHRStructベンチマークには11の主要なタスクがあり、合計2200のサンプルが含まれています。タスクの設計は臨床現場、認知レベル、機能カテゴリを考慮して行われており、厳密な評価フレームワークを形成しています。研究者らは、汎用的な大規模モデルが構造化された電子カルテを処理する際に優れた性能を発揮し、医学専門に設計されたモデルを上回っていることを明らかにしました。また、データ駆動型のタスクではより高い性能が得られ、入力形式やファインチューニング方法がモデルのパフォーマンスに大きな影響を与えることもわかりました。

評価では、20の主流のLLMと11種類の強化手法を系統的に比較しました。その結果、EHRMasterフレームワークとGeminiモデルを組み合わせることで、LLMが構造化されたEHRを処理する際の性能が顕著に向上し、現在最も進んだモデルをも上回ることが確認されました。この研究成果はAAAI 2026会議に採択され、今後の学術交流で広く注目されることが予想されています。

この分野の発展を促すために、研究チームは「EHRStruct 2026 - LLM構造化電子カルテチャレンジ」をリリースしました。このチャレンジは、研究者たちが統一的で比較可能な評価プラットフォームを持つことを目的としており、LLMが構造化された電子カルテを処理する能力に関する深い研究を促進します。

EHRStructの構築プロセスは4つの段階に分けられます。タスクの合成、タスク体系の構築、タスクサンプルの抽出、および評価フローの構築です。医療専門家とコンピュータ科学者の共同作業により、評価の臨床関連性と再現性が確保されています。この評価フレームワークは科学的かつ厳密であるだけでなく、今後の研究に豊富なデータを提供します。

この重要な研究の公開は、医療AIの進歩に新たなツールと方法を提供するとともに、今後の臨床意思決定とデータ分析にさらに信頼性あるサポートをもたらします。私たちは、より多くの医療AIアプリケーションが実際の業務で活用され、効率的な医療サービスを実現することを期待しています。