在 AI 領域,Token 的數量限制一直是一個亟待解決的問題。最近,一項由華人團隊完成的研究引起了廣泛關注,研究顯示,擴散語言模型在 Token 數量受限的情況下,展現出比自迴歸模型多三倍的數據學習潛力。這一發現可能會爲未來的語言模型訓練開闢新局面。

這項研究的核心是一個參數規模爲10億的擴散模型,團隊使用10億個 Token 進行了480個週期的訓練。在 HellaSwag 和 MMLU 基準測試中,該模型分別達到了56% 和33% 的準確率,且訓練過程中未使用任何特殊技巧或數據篩選。更令人驚訝的是,即使在極度重複的數據訓練中,模型的性能仍未出現飽和,表明它可以從同一數據中提取出更多有用的信息。

研究人員分析了擴散語言模型的強大數據學習能力,歸結爲兩個主要原因。首先,擴散模型採用了雙向建模和擴散目標,這使其能夠更全面地挖掘數據中的信息,而傳統的自迴歸模型在處理數據時存在因果限制。其次,擴散模型的計算密度更高,它在訓練和推理過程中投入了更多計算資源,通過多次處理數據來優化預測,從而提升了模型的整體性能。

image.png

儘管擴散模型對數據的重複使用表現出一定的魯棒性,研究團隊發現,隨着訓練週期的增加,模型會出現過擬合現象。然而,令人驚訝的是,即使在過擬合的情況下,模型在下游任務中的性能並沒有立即下降,反而有時會繼續提升。這是因爲驗證損失的變化與下游任務的準確率之間並不總是呈正相關,模型在處理有限的訓練數據時,可能會對某些文本片段表現出過於自信。

這項研究的發現爲未來 AI 模型的訓練方法提供了新的思路,尤其在 Token 數量受限的情況下,擴散語言模型的應用前景將更加廣闊。研究團隊計劃在接下來的工作中使用更大的模型和更多獨特的數據,以進一步驗證這些發現。