マイクロソフトは最近、複雑な医療ケースの診断精度を大幅に向上させるために設計された新しいAIシステム「MAI-DxO」をリリースしました。このシステムの診断精度は、経験豊富な医師の4倍であり、医療コストを約70%削減できるとされています。この技術は、現実的な段階的な診断プロセスを模倣する新しい基準テストを通じて評価されました。

image.png

研究チームは論文『言語モデルによる順次診断』でこのシステムについて詳細に説明しており、挑戦的なケースにおいて人間の医師よりも正確性とコスト効率の点で優れていると考えています。より現実的なテスト結果を提供するために、チームは順次診断ベンチ(SDBench)を作成しました。従来の医学AIテストとは異なり、SDBenchはすべての情報を一度に提供するのではなく、臨床決定の順序的なプロセスを模倣しています。

SDBenchのテストケースは、『ニューイングランド・ジャーナル・オブ・メディスン』の304件の複雑な症例から取得されました。テストでは、医師またはAI診断士が最初に簡潔な症例概要を受け取り、その後対象的な質問や検査の要求を通じて詳細な情報を積極的に求めなければなりません。このシステムは「ゲートモード」によって情報の公開を制御し、特定の検査の合成結果を生成することさえ可能で、偶然のヒント情報の漏洩を防ぎます。

image.png

テストでは、アメリカとイギリス出身の21人の経験豊富な医師の診断精度は19.9%で、各症例の平均費用は2963ドルでした。一方、マイクロソフトのMAI-DxOはOpenAIのo3モデルを組み合わせて、79.9%の精度を達成し、平均費用は2397ドルでした。MAI-DxOの主な進歩はコストの大幅な削減です。o3モデルは標準モデルの中で78.6%の最高精度を記録していますが、その平均費用は7850ドルに達しています。しかし、MAI-DxOを使用した診断では精度はわずかに向上し、費用はほぼ70%も削減されました。

MAI-DxOは仮想の医師チームを模倣することでパフォーマンスを向上させています。チーム内には「仮定医師」「テスト選択医師」「疑問医師」「コスト監視医師」「チェックリスト医師」が含まれています。このような構造は、システムが早い段階で特定の仮定に固定されてしまうことを防ぐためです。

しかし、研究者たちはいくつかの制限要因にも気づいています。SDBenchは複雑な教育ケースに基づいているため、日常的な診療で一般的な疾患の分布を反映していません。コスト計算は粗い推定であり、現実世界の多くの要因は考慮されていません。また、参加した医師は一般内科医であり、通常複雑なケースでは専門家に紹介されるため、彼らの評価には外部リソースを利用していないという点も指摘されています。

ポイント:

🔍 MAI-DxOシステムの診断精度は経験豊富な医師の4倍で、費用は約70%削減されます。

💡 SDBenchテストは現実的な段階的な診断プロセスを模倣し、動的に情報を要求することで精度を向上させます。

🩺 研究ではシステムの性能が優れていることが示されていますが、複雑なケースに関する制限と課題もあります。