北大和香港科技大學的團隊搞了個大新聞,他們提出了一種訓練方法,讓8B尺寸的醫療專家模型達到了GPT-4級的性能。這可不是小打小鬧,他們還引入了一個新概念——「穩定性差距」,來解釋大語言模型在持續預訓練過程中出現的一些現象。

AI醫療 醫生 人工智能

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

首先,他們發現在持續預訓練過程中,模型在目標領域的性能會先下降再上升,這就像是過山車一樣刺激。爲了解決這個問題,他們提出了三種策略。第一種是在適當大小的數據子集上進行多輪預訓練,這樣比單輪大數據集預訓練能更快恢復性能。第二種是選取最高質量的子語料進行多輪預訓練。最後,通過混合數據來接近預訓練數據分佈,這樣可以讓模型更穩定。

這些策略在醫療領域的持續預訓練和指令精調中都取得了顯著的效果,提升了效果的同時,還削減了計算量。而且,他們開源的Llama-3-Physician-8B模型已經在HuggingFace上可以找到。

這個研究的意義可不止於此。他們還發現,通過這些策略,OpenLLaMa模型只需要在高質量50億數據上訓練4個輪次,就能在醫療任務上顯著超越所有基線。這不僅提升了性能,還大大減少了計算資源的消耗。

更厲害的是,他們的Llama-3-Physician-8B-insturct模型在醫療問答任務上的表現,不僅優於其他同尺寸的開源模型,甚至超過了閉源的GPT-3.5模型,接近GPT-4的水平。這簡直就是醫療領域的一次革命。

這項研究不僅爲我們提供了一種新的訓練方法,還讓我們看到了大語言模型在醫療領域的巨大潛力。通過持續預訓練和指令微調,我們可以讓模型在特定領域達到更高的性能,同時降低計算成本。這對於醫療行業來說,無疑是一個巨大的福音。

這項研究也提醒我們,大語言模型的訓練不是一蹴而就的,而是需要不斷地優化和調整。通過引入「穩定性差距」的概念,我們可以更好地理解和解決模型訓練中的問題,讓模型在特定領域發揮出更大的作用。這不僅是技術上的突破,更是對醫療行業的一次深刻洞察。

論文鏈接:https://arxiv.org/abs/2406.14833

開源地址:https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct