香港中文大學(深圳)與深圳大數據研究院的研究團隊近日聯合發佈了一款名爲HuatuoGPT-o1的醫療大型語言模型(LLM)。這款模型專爲醫療領域的複雜推理而設計,旨在提高醫療診斷和決策的可靠性。與以往側重於數學推理的LLM不同,HuatuoGPT-o1專注於醫療這一特殊領域,通過模擬醫生在實際工作中嚴謹的思考過程,爲醫療AI的發展開闢了新的道路。
該研究團隊認識到,醫療領域的推理過程往往缺乏明確的步驟,難以驗證。爲了解決這一難題,他們從醫療考試題庫中精選出4萬道具有唯一、客觀正確答案的難題,並將其轉化爲開放式問題,構建了可驗證的醫療問題集。這些問題不僅需要模型進行深入的推理,還能通過答案的對錯來驗證推理過程的正確性。

研究團隊採用了一種兩階段訓練方法來提升模型的推理能力。第一階段,利用驗證器的反饋(正確或錯誤)來引導模型進行基於策略的搜索,生成複雜的推理軌跡。模型首先初始化一個思維鏈(CoT),如果驗證器認爲當前的CoT不正確,模型會嘗試回溯、探索新路徑、驗證或糾正等策略,直到找到正確的答案。這些成功的推理軌跡隨後被用來微調LLM,使其具備迭代反思的複雜推理能力。第二階段,利用驗證器提供的稀疏獎勵,通過強化學習(RL)算法進一步提升模型的複雜推理能力。

實驗結果表明,這種方法僅使用了4萬個可驗證的問題,就使一個80億參數的模型在醫療基準測試中取得了8.5分的提升。而一個700億參數的模型在多個醫療基準測試中,也超越了其他開源的通用和醫療專用LLM。這些結果證實了複雜推理對解決醫療問題的有效性,以及強化學習對提升模型性能的顯著作用。
HuatuoGPT-o1的創新之處在於它首次使用可驗證的醫療問題和醫療驗證器來提升LLM的醫療複雜推理能力。通過這種方法,模型能夠像醫生一樣進行深入思考,並在給出答案前進行自我檢查和修正。這不僅提高了模型在醫療領域的應用潛力,也爲其他專業領域的推理能力提升提供了借鑑。
爲了驗證模型的可靠性,研究人員使用GPT-4o作爲驗證器,結果顯示其在第一階段的準確率達到96.5%,在第二階段的準確率達到94.5%。同時,他們也證實了基於LLM的驗證器比傳統的精確匹配方法更可靠。此外,研究人員還將該方法應用到中文醫療領域,同樣取得了顯著的成果,證明了該方法在不同領域和語言環境下的適應性。
總而言之,HuatuoGPT-o1的出現標誌着醫療AI在複雜推理方面取得了重大進展。它不僅爲醫療診斷和決策提供了更可靠的工具,也爲未來AI在其他專業領域的應用提供了新的思路。儘管該模型目前仍處於研究階段,不能直接應用於臨牀,但其巨大的潛力已引起了廣泛關注。
論文地址:https://arxiv.org/pdf/2412.18925
