新たな研究によると、OpenAIのo1-previewというAIシステムが、複雑な医療ケースの診断において、人間の医師を上回る可能性があることが示されました。ハーバード大学医学部とスタンフォード大学の研究チームがo1-previewに対して包括的な医療診断テストを実施した結果、以前のバージョンと比べて著しい進歩が見られました。
研究結果によると、o1-previewはテストされたすべての症例において、78.3%の正解率を達成しました。70の特定の症例を直接比較したところ、その正確な診断率は88.6%に達し、前身であるGPT-4の72.9%を大きく上回りました。医療推論においても、o1-previewは注目すべきパフォーマンスを示しました。医療推論の質を評価する基準であるR-IDEA尺度を用いた80症例でのテストでは、78症例で満点を獲得しました。これに対し、経験豊富な医師は28症例、医学研修医は16症例のみが満点を獲得しました。
研究者らは、o1-previewのトレーニングデータに一部テストケースが含まれていた可能性も認めています。しかし、新しい症例でテストした際も、パフォーマンスはわずかに低下した程度でした。研究者の一人であるアダム・ロードマン博士は、これはベンチマーク研究ではあるものの、その結果は医療実践にとって重要な示唆を与えると強調しています。
25人の専門家が特別に設計した複雑な管理ケースを処理する際、o1-previewは特に優れたパフォーマンスを示しました。「人間はこれらの難問に苦戦しますが、o1のパフォーマンスは驚異的でした」とロードマンは説明しています。これらの複雑なケースにおいて、o1-previewは86%のスコアを獲得しましたが、医師がGPT-4を用いた場合は41%、従来のツールでは34%にとどまりました。
しかし、o1-previewにも欠点がないわけではありません。確率評価においては、目立った改善は見られませんでした。例えば、肺炎の可能性を評価する際、o1-previewは70%という推定値を出しましたが、これは科学的な範囲(25%~42%)をはるかに超えています。研究者らは、o1-previewは批判的思考を必要とするタスクでは優れたパフォーマンスを示す一方、確率の推定など、より抽象的な課題では苦戦する傾向があると発見しました。
さらに、o1-previewは通常、詳細な回答を提供するため、それがスコア向上に繋がっている可能性があります。しかし、この研究ではo1-preview単独での作業に焦点を当てており、医師との連携効果は評価されていません。一部の批判者は、o1-previewが推奨する診断テストは、費用が高く非現実的なことが多いと指摘しています。

OpenAIは新しいバージョンのo1とo3をリリースしており、複雑な推論タスクにおいて優れたパフォーマンスを示していますが、これらのより強力なモデルでも、批判者から提起されている実用性とコストの問題は解決されていません。ロードマンは、現実の医療意思決定における複雑さを捉えるために、医療AIシステムを評価するより良い方法が必要だと訴えています。そして、この研究は医師に取って代わることを意味するものではなく、実際の医療には人間の関与が必要であると強調しています。
論文: https://arxiv.org/abs/2412.10849
要点:
🌟 o1-previewは診断率において医師を上回り、88.6%の精度を達成しました。
🧠 医療推論において、o1-previewは80症例中78症例で満点を獲得し、医師のパフォーマンスを大きく上回りました。
💰 優れたパフォーマンスにもかかわらず、o1-previewは実用化における高コストと非現実的な検査提案という問題を抱えています。
