停更 13 個月後,前OpenAI安全研究副總裁、現Thinking Machines Lab聯合創始人翁荔在個人博客Lil'Log上發表了一篇逾萬字的技術長文《Scaling Laws, Carefully》,自稱"遲到了三年多"。這篇文章將支撐大模型行業數百億美元投入的Scaling Laws從頭拆解一遍,得出的核心結論讓不少從業者難以平靜:當前模型的數據配比,很可能從一開始就走偏了。
從Kaplan到Chinchilla:一場被寫反的行業共識
故事始於 2020 年,OpenAI研究員Jared Kaplan發表論文,提出在log-log座標上,訓練損失隨參數量、數據量和算力呈漂亮冪律下降——模型規模應比數據增長更快。GPT- 3 正是這一結論的產物: 1750 億參數,訓練數據卻僅 3000 億token。
兩年後,DeepMind團隊以更大規模實驗推翻了這一結論。他們將 2800 億參數的Gopher與 700 億參數的Chinchilla同算力對比,後者參數僅爲前者的四分之一,但訓練數據是四倍多——結果Chinchilla在所有評測上碾壓Gopher。Chinchilla揭示的規律是參數與數據應等比增長,最佳比例約爲1:20,而非Kaplan所說的參數飆漲、數據慢跟。這也解釋了爲何後來Llama、DeepSeek等模型參數不敵GPT-3,性能卻遠勝於它。
翁荔分析了Kaplan的偏差根源:實驗最大模型僅 15 億參數,小規模區間的擬合差異外推至萬億級別後演變爲系統性錯誤;同時Kaplan排除了embedding層參數計數,而這一口徑在小模型上影響極大。更令人意外的是, 2024 年Epoch AI團隊逐行復現Chinchilla擬合代碼時發現兩個bug——損失函數取均值而非求和導致優化器誤判收斂、核心冪律指數被四捨五入至兩位數產生虛假精度——修正後的數據再次印證了等比增長的結論。
數據牆將至,重複訓練邊際價值指數衰減
上述討論均以"訓練數據無限且不重複"爲前提,但高質量文本數據預計 2026 至 2028 年即告枯竭。研究顯示,重複數據的有效價值呈指數衰減,每多訓練一輪邊際收益急劇遞減。翁荔在文中嵌入的交互式模擬器直觀展示了工程細節的敏感性——僅調整擬合精度或噪聲水平,外推預測就可能差出十萬八千里。
翁荔最終寫下這樣一句三年來凝練的判斷:Scaling Laws不是物理定律,它是對工程細節高度敏感的觀測性指南。
