近期,谷歌、卡內基梅隆大學與 MultiOn 的研究團隊聯合發佈了一項關於合成數據在大模型訓練中應用的新研究。根據 AI 發展科研機構 Epoch AI 的報告,目前人類公開的高質量文本訓練數據大約有300萬億 tokens,但隨着大型模型如 ChatGPT 的快速發展,對訓練數據的需求正以指數級增長,預計在2026年前這些數據將被消耗殆盡,因此合成數據逐漸成爲重要的替代方案。

QQ_1743987258822.png

研究人員探索了合成數據的兩種主要類型:正面數據和負面數據。正面數據是指來自高性能大模型(如 GPT-4和 Gemini1.5Pro)生成的正確問題解決方案,這些數據爲模型提供了學習如何解決數學問題的示例。然而,僅依賴正面數據進行訓練存在一定侷限性。首先,這種方法可能無法深入揭示問題解決過程中的內在邏輯,模型可能只是通過模式匹配學習而缺乏真正的理解。其次,隨着訓練數據的增加,模型可能會學習到一些偶然的錯誤關聯,導致其在處理新問題時的泛化能力下降。

因此,研究人員引入了負面數據類型。這些數據包含了被驗證爲錯誤的解題步驟,能夠幫助模型識別並避免錯誤,增強其邏輯推理能力。儘管利用負面數據面臨一定挑戰,因爲錯誤步驟可能帶有誤導性信息,但通過 DPO(直接偏好優化)方法進行優化,研究人員成功地使模型從錯誤中學習,並強調每一步解題的重要性。

DPO 方法爲每個解題步驟分配一個優勢值,反映該步驟相對於理想解法的價值。研究表明,高優勢值步驟是正確解題的關鍵,而低優勢值步驟則可能暗示模型推理中的問題。通過這些優勢值,模型能夠在強化學習的框架下動態調整其策略,以更高效地學習和改進合成數據。

爲了驗證合成數據的效果,研究團隊在 GSM8K 和 MATH 數據集上對 DeepSeek-Math-7B、LLama2-7B 等模型進行了綜合測試。結果顯示,經過正面和負面合成數據預訓練的大模型,其在數學推理任務上的性能提升了八倍。這一研究成果展示了合成數據在提高大模型邏輯推理能力方面的巨大潛力。

劃重點:  

📊 合成數據作爲替代方案,有效應對日益增長的訓練數據需求。  

🧩 正面和負面數據結合,提升模型的數學推理和邏輯能力。  

🚀 研究表明,合成數據預訓練後,大模型的推理能力提升了八倍。