近日,字節跳動宣佈推出其全新的數據選擇框架 QuaDMix,旨在提升大型語言模型(LLM)預訓練的效率和泛化能力。衆所周知,模型的訓練效果受基礎數據集的質量和多樣性影響很大。然而,傳統的數據篩選方法往往將質量和多樣性視爲兩個獨立的目標,先進行質量過濾,再進行領域平衡。

QQ_1745804240748.png

這種逐步優化的方式忽略了質量與多樣性之間的複雜相互關係。優質數據集往往存在領域偏差,而多樣化的數據集可能會降低質量。因此,在固定的訓練預算下,如何同時優化這兩個維度以最大化模型性能,成爲了一個亟待解決的難題。

QuaDMix 框架的主要運作分爲三個階段:特徵提取、質量聚合和質量 - 多樣性感知採樣。在初始階段,每個文檔都會被標註領域標籤和多項質量評分。通過歸一化和合並這些評分,生成一個綜合質量分數。接着,系統通過基於 sigmoid 的函數採樣文檔,優先考慮高質量樣本,並通過參數化控制確保領域平衡。

爲了優化模型,QuaDMix 在不同參數設置下訓練了數千個代理模型。通過這些代理實驗訓練的迴歸模型可以預測性能結果,從而識別出最佳採樣配置。這種方法使得在高維參數空間中進行結構化探索成爲可能,從而更好地將數據選擇與下游任務對接。

實驗結果顯示,QuaDMix 在 RefinedWeb 數據集上進行的驗證實驗中,與多種基線模型相比,平均得分達到了39.5%。這些基線模型包括隨機選擇、Fineweb-edu、AskLLM、DCLM 等。實驗結果表明,聯合優化策略在整體表現上始終優於單獨關注質量或多樣性的方法。此外,經過優化的數據混合更能提升特定下游任務的性能。

QuaDMix 爲大型語言模型的預訓練數據選擇提供了一個系統化的解決方案,解決了長期以來同時優化數據質量與多樣性的挑戰。通過結合質量聚合和領域感知採樣,QuaDMix 建立了一種可擴展的方法論,提升了 LLM 預訓練的效率。

劃重點:

🌟 QuaDMix 是字節跳動推出的一個新框架,旨在同時優化大型語言模型預訓練中的數據質量和多樣性。  

📈 該框架通過特徵提取、質量聚合和質量 - 多樣性感知採樣的三階段流程來實現數據選擇。  

🔍 實驗結果顯示,QuaDMix 在多個基準測試中表現優異,平均得分達到了39.5%,超越了多種傳統方法。