儘管人工智能在醫療領域取得了令人矚目的進展,但一項新的研究表明,通用型AI如ChatGPT在複雜醫療診斷方面仍存在顯著缺陷。
加拿大安大略省西部大學的醫學教育家Amrit Kirpalani領導的研究團隊發現,ChatGPT在診斷150個來自Medscape的複雜醫療案例中,有76個出現錯誤,錯誤率超過50%。
這項研究採用了Medscape的問題庫,這些案例比美國醫師執照考試(USMLE)更接近真實醫療情況,包含多種併發症和診斷難題。研究團隊通過巧妙的提示設計,繞過了OpenAI對ChatGPT用於醫療建議的禁令。
圖源備註:圖片由AI生成,圖片授權服務商Midjourney
Kirpalani指出,ChatGPT的表現不佳主要歸因於兩個因素:首先,與專門的醫療AI相比,ChatGPT缺乏深厚的醫學領域專業知識;其次,ChatGPT在處理醫學"灰色地帶"時表現欠佳,無法像人類醫生那樣靈活解讀輕微異常的檢查結果。
更令人擔憂的是,即使在給出錯誤診斷時,ChatGPT也能提供看似合理且有說服力的解釋。這種特性可能會誤導非專業人士,增加錯誤信息傳播的風險。
儘管如此,AI在醫療領域仍有其價值。研究合著者Edward Tran表示,ChatGPT已成爲醫學院教育中的重要工具,幫助學生整理筆記、澄清診斷算法和備考。然而,Kirpalani強烈建議公衆不要使用ChatGPT尋求醫療建議,而應繼續諮詢專業醫療保健提供者。
Kirpalani認爲,構建可靠的AI醫生需要大量臨牀數據訓練和嚴格監督。在短期內,AI更可能被用來增強人類醫生的工作,而非完全取代他們。隨着技術的不斷進步,AI在醫療領域的應用仍將是一個值得關注的話題。