医療分野における人工知能の応用が、再び大きな飛躍を遂げました!ハーバード大学、スタンフォード大学など、多くのトップ機関が共同で行った研究によると、OpenAIのo1-previewモデルは、複数の医学的推論タスクで驚くべき能力を示し、人間の医師を凌駕する結果となりました。この研究では、医学的多肢選択式試験におけるモデルの性能を評価しただけでなく、実際の臨床現場を模倣した診断と治療管理能力にも重点を置き、注目すべき結果が得られました。

image.png

研究者らは5つの実験を通して、鑑別診断の生成、診断推論プロセスの提示、トリアージと鑑別診断、確率推論、治療管理推論など、o1-previewモデルを包括的に評価しました。これらの実験は、検証済みの心理測定学的アプローチを用いて医学専門家によって評価され、o1-previewの性能を以前の人間被験者グループや初期の大規模言語モデルのベンチマークと比較することを目的としています。その結果、o1-previewは鑑別診断の生成と、診断および治療管理推論の質において著しい進歩を遂げていることが示されました。

image.png

o1-previewの鑑別診断生成能力を評価するために、研究者らは「ニューイングランド・ジャーナル・オブ・メディシン(NEJM)」に掲載された臨床病理学的カンファレンス(CPC)症例を使用しました。その結果、78.3%の症例において、モデルが提示した鑑別診断に正しい診断が含まれており、52%の症例では、最初の診断が正しい診断でした。さらに驚くべきことに、o1-previewは88.6%の症例で正確または非常に近い診断を提示しましたが、以前のGPT-4モデルでは同じ症例で72.9%でした。さらに、o1-previewは次の診断検査を選択する際にも優れた性能を示し、87.5%の症例で正しい検査を選択し、11%の症例では選択された検査計画が有益であると評価されました。

image.png

o1-previewの臨床推論能力をさらに評価するために、研究者らはNEJM Healerコースの20の臨床症例を使用しました。その結果、o1-previewはこれらの症例においてGPT-4、上級医、研修医を明らかに上回り、80症例中78症例で完璧なR-IDEAスコアを獲得しました。R-IDEAスコアは、臨床推論記録の質を評価するための10点満点の尺度です。「Grey Matters」治療管理症例と「Landmark」診断症例を用いて、o1-previewの治療管理と診断推論能力も評価されました。「Grey Matters」症例では、o1-previewのスコアはGPT-4、GPT-4を使用する医師、従来のリソースを使用する医師を大幅に上回りました。「Landmark」症例では、o1-previewの性能はGPT-4と同等でしたが、GPT-4または従来のリソースを使用する医師よりも優れていました。

しかし、研究では、o1-previewの確率推論における性能は以前のモデルと同様であり、目立った改善は見られなかったことも判明しました。場合によっては、モデルは病気の確率予測において人間に劣っていました。研究者らはまた、o1-previewの限界として冗長になりやすい傾向があることを指摘しており、これが一部の実験でスコアを向上させた可能性があります。さらに、この研究は主にモデルの性能に焦点を当てており、人間と機械のインタラクションには触れていないため、今後、より効果的な臨床意思決定支援ツールを開発するために、o1-previewがどのように人間と機械のインタラクションを強化できるかについて、さらなる研究が必要です。

それにもかかわらず、この研究は、o1-previewが(診断や治療管理など)複雑な批判的思考を必要とするタスクで優れた性能を示すことを示しています。研究者らは、医療分野の診断推論ベンチマークが急速に飽和しつつあるため、より困難で現実的な評価方法を開発する必要があると強調しています。彼らは、実際の臨床環境でこれらの技術を試行し、臨床医と人工知能の協調的イノベーションへの準備を整えるよう呼びかけています。さらに、人工知能臨床意思決定支援システムの広範な導入を監視するための健全な監督枠組みを構築する必要があります。

論文アドレス:https://www.arxiv.org/pdf/2412.10849