最新發表在《Cureus》雜誌上的一項同行評審研究顯示,OpenAI的GPT-4語言模型在未經任何額外訓練的情況下,成功通過了日本國家物理治療考試。

研究人員向GPT-4輸入了1,000個問題,涵蓋記憶、理解、應用、分析和評估等方面。結果顯示,GPT-4總體上正確回答了73.4%的問題,通過了所有五個測試部分。然而,研究也揭示了AI在某些領域的侷限性。

QQ20240902-090345.png

GPT-4在一般問題上表現出色,正確率達80.1%,但在實際問題上僅爲46.6%。同樣,它在處理純文本問題(80.5%正確)方面遠優於帶有圖片和表格的問題(35.4%正確)。這一發現與先前關於GPT-4視覺理解侷限性的研究結果一致。

值得注意的是,問題難度和文本長度對GPT-4的性能影響不大。儘管該模型主要使用英語數據訓練,但在處理日語輸入時也表現良好。

QQ20240902-090359.png

研究人員指出,雖然這項研究展示了GPT-4在臨牀康復和醫學教育方面的潛力,但仍需謹慎看待。他們強調,GPT-4並不能正確回答所有問題,未來還需要評估新版本以及該模型在書面和推理測試中的能力。

QQ20240902-090419.png

此外,研究人員提出,像GPT-4v這樣的多模態模型可能在視覺理解方面帶來進一步的改進。目前,谷歌的Med-PaLM2、Med-Gemini等專業醫療AI模型,以及Meta基於Llama3的醫療模型都在積極開發中,旨在在醫療任務中超越通用模型。

然而,專家們認爲,醫療AI模型要廣泛應用於實踐可能還需要很長時間。當前模型的誤差空間在醫療環境中仍然過大,需要在推理能力上取得顯著進步,才能安全地將這些模型整合到日常醫療實踐中。