在大模型(Large Language Model,LLM)快速發展的今天,模型的訓練和推理成本日益成爲研究和應用的關注焦點。最近,騰訊混元團隊發佈了一項重要研究,深入探討了低比特浮點量化訓練的 “Scaling Laws”,即浮點數量化訓練的規模法則。此項研究的核心在於通過降低模型的精度,探索如何在不損失性能的情況下,顯著降低計算和存儲成本。
研究團隊進行了多達366組不同參數規模和精度的浮點數量化訓練,系統分析了影響訓練效果的多種因素,包括模型大小(N)、訓練數據量(D)、指數位(E)、尾數位(M)以及量化粒度(B)。通過這些實驗,研究人員得出了一套統一的 Scaling Law,揭示了在不同精度下,如何有效配置訓練數據和模型參數,以獲得最佳的訓練效果。
最爲關鍵的是,研究指出,在任意低精度的浮點數量化訓練中,存在一個 “極限效果”,即在特定的數據量下,模型的性能將達到最優,超過此數據量可能會導致效果下降。此外,研究還發現,理論上最佳性價比的浮點數量化訓練精度應在4到8比特之間,這對於開發高效的 LLM 具有重要的指導意義。
該研究不僅填補了浮點數量化訓練領域的空白,也爲未來硬件製造商提供了參考,幫助他們在不同精度下優化浮點運算能力。最終,這項研究爲大模型訓練的實踐提供了清晰的方向,確保在資源有限的情況下,依然能夠實現高效的訓練效果。
論文地址:https://arxiv.org/pdf/2501.02423