近日,《華盛頓郵報》的科技專欄作家 Geoffrey A. Fowler 分享了一次頗爲驚險的經歷,他將自己十年來在 Apple Watch 上記錄的健康數據導入到 OpenAI 最新推出的 ChatGPT Health 功能中,結果卻被錯誤地判定心臟健康爲 “不及格”(F)。這一結果讓 Fowler 感到恐慌,他隨即聯繫了醫生進行進一步檢查。

經過詳細的醫療評估,醫生明確表示 Fowler 的心臟健康狀況極佳,心臟病發作的風險非常低,甚至不需要進行額外的有氧適能測試。這一番反轉讓 Fowler 鬆了口氣,但同時也引發了他對 AI 健康評估準確性的質疑。

image.png

深入分析後,Fowler 發現 ChatGPT 的誤判主要源於對數據的錯誤解讀。AI 將 Apple Watch 記錄的 VO2max(最大攝氧量)視爲絕對準確的醫療數據,而實際上,蘋果公司早已說明這一數據僅爲 “估算值”,其主要用途在於跟蹤健康趨勢,而非提供臨牀診斷。此外,Fowler 在更換新款 Apple Watch 後,由於傳感器升級而導致的靜息心率基準變化,AI 也錯誤地將其解讀爲生理機能的顯著變化,完全忽略了硬件更新的關鍵因素。

更爲棘手的是,ChatGPT Health 在反饋結果時表現出明顯的不穩定性。當 Fowler 多次詢問同一健康問題時,AI 的評分在 “F” 到 “B” 之間劇烈波動,令人難以置信。此外,該系統似乎還出現了 “健忘症”,在對話中多次遺忘 Fowler 的性別和年齡等基本信息,甚至在擁有最近血液檢測報告的情況下,依然選擇性地忽略這些重要的臨牀證據。

Fowler 的這一經歷提醒我們,在利用 AI 技術進行健康評估時,務必保持警惕,畢竟 AI 的判斷並非總是可靠。