最近、ワシントン・ポストのテクノロジー専門記者であるGeoffrey A. Fowler氏は、自身がApple Watchで10年間記録した健康データをOpenAIが新しくリリースしたChatGPT Health機能にインポートしたところ、誤って「心臓の健康状態が不適格(F)」と判定され、驚きと不安を感じた。この結果を受け、Fowler氏はすぐに医師に相談して詳細な検査を行った。
詳細な医療評価の結果、医師はFowler氏の心臓の健康状態が非常に良好で、心臓発作のリスクが極めて低く、さらなる有酸素運動能力テストを行う必要がないと明確に述べた。この逆転の展開に安心したFowler氏だが、同時にAIによる健康評価の正確性への疑問も生じた。

詳しく分析した結果、Fowler氏はChatGPTの誤診断がデータの誤解釈によって引き起こされたことを発見した。AIはApple Watchが記録したVO2max(最大酸素摂取量)を絶対的な医療データとして扱い、実際にはアップル社がそのデータを「推定値」としており、主に健康傾向の追跡に使用されるものであることを明記している。さらに、Fowler氏が新しいApple Watchに機種変更した際にセンサーのアップグレードにより静的心拍数の基準が変化したが、AIはそれを生理的な大きな変化と誤って解釈し、ハードウェアの更新という重要な要因を無視した。
さらに厄介なことに、ChatGPT Healthは結果を返す際に明らかに不安定さを示している。Fowler氏が同じ健康問題を複数回尋ねた場合、AIの評価は「F」から「B」まで激しく変動し、信じられないほどだった。また、このシステムは「忘れっぽさ」を示しており、会話の中でFowler氏の性別や年齢などの基本情報が繰り返し忘れることがあり、最近の血液検査報告書を持っているにもかかわらず、それらの重要な臨床的証拠を意図的に無視していた。
Fowler氏のこの体験は、AI技術を用いて健康を評価する際には注意深くなければならないことを私たちに思い出させてくれる。なぜなら、AIの判断が常に信頼できるとは限らないからだ。
