在最新的研究中,谷歌與卡內基梅隆大學及 MultiOn 團隊聯手,探討了合成數據對大型模型的訓練效果。他們發現,合成數據能夠顯著提升大模型在邏輯推理方面的表現,尤其是在數學問題的解決能力上,提升幅度達到了驚人的八倍。這一發現對於當前訓練數據日益匱乏的現狀具有重要的意義。
目前,全球可用的高質量文本訓練數據約爲300萬億條,但隨着像 ChatGPT 這樣的模型日益普及,對訓練數據的需求急劇增加,預計到2026年,這些數據將難以滿足需求。在此背景下,合成數據成爲了一種極爲關鍵的替代方案。

研究團隊主要探索了兩類合成數據:正向數據和負向數據。正向數據是由像 GPT-4和 Gemini1.5Pro 等高性能模型生成的正確問題解決方案,它們爲其他模型提供了示範。然而,僅依靠正向數據進行訓練存在一些不足之處。例如,模型可能會通過模式匹配來學習,而未能真正理解問題的解決過程,導致其泛化能力下降。
爲了克服這些不足,研究團隊引入了負向數據,主要是那些被驗證爲錯誤的問題解決步驟。這種數據幫助模型識別常見錯誤,從而提升其邏輯推理能力。儘管負向數據的使用存在一定挑戰,因爲錯誤步驟可能帶有誤導性信息,但研究人員通過直接偏好優化(DPO)的方法,使模型能夠從錯誤中有效學習,從而明確每個步驟在問題解決過程中的重要性。
在研究過程中,團隊使用了 DeepSeek-Math-7B 和 LLaMa2-7B 等模型,在 GSM8K 和 MATH 數據集上進行了大量測試。結果顯示,經過正向和負向合成數據預訓練的大模型,在數學推理任務中的表現提升了八倍。這一研究成果不僅證明了合成數據在增強大模型邏輯推理能力方面的巨大潛力,同時也爲未來模型訓練提供了新的思路。
