拖更三年萬字長文，前OpenAI安全VP翁荔拆解Scaling Laws：你的模型可能喂錯了數據

停更 13 個月後，前OpenAI安全研究副總裁、現Thinking Machines Lab聯合創始人翁荔在個人博客Lil'Log上發表了一篇逾萬字的技術長文《Scaling Laws， Carefully》，自稱"遲到了三年多"。這篇文章將支撐大模型行業數百億美元投入的Scaling Laws從頭拆解一遍，得出的核心結論讓不少從業者難以平靜：當前模型的數據配比，很可能從一開始就走偏了。

從Kaplan到Chinchilla：一場被寫反的行業共識

故事始於 2020 年，OpenAI研究員Jared Kaplan發表論文，提出在log-log座標上，訓練損失隨參數量、數據量和算力呈漂亮冪律下降——模型規模應比數據增長更快。GPT- 3 正是這一結論的產物： 1750 億參數，訓練數據卻僅 3000 億token。

兩年後，DeepMind團隊以更大規模實驗推翻了這一結論。他們將 2800 億參數的Gopher與 700 億參數的Chinchilla同算力對比，後者參數僅爲前者的四分之一，但訓練數據是四倍多——結果Chinchilla在所有評測上碾壓Gopher。Chinchilla揭示的規律是參數與數據應等比增長，最佳比例約爲1:20，而非Kaplan所說的參數飆漲、數據慢跟。這也解釋了爲何後來Llama、DeepSeek等模型參數不敵GPT-3，性能卻遠勝於它。

翁荔分析了Kaplan的偏差根源：實驗最大模型僅 15 億參數，小規模區間的擬合差異外推至萬億級別後演變爲系統性錯誤；同時Kaplan排除了embedding層參數計數，而這一口徑在小模型上影響極大。更令人意外的是， 2024 年Epoch AI團隊逐行復現Chinchilla擬合代碼時發現兩個bug——損失函數取均值而非求和導致優化器誤判收斂、核心冪律指數被四捨五入至兩位數產生虛假精度——修正後的數據再次印證了等比增長的結論。

數據牆將至，重複訓練邊際價值指數衰減

上述討論均以"訓練數據無限且不重複"爲前提，但高質量文本數據預計 2026 至 2028 年即告枯竭。研究顯示，重複數據的有效價值呈指數衰減，每多訓練一輪邊際收益急劇遞減。翁荔在文中嵌入的交互式模擬器直觀展示了工程細節的敏感性——僅調整擬合精度或噪聲水平，外推預測就可能差出十萬八千里。

翁荔最終寫下這樣一句三年來凝練的判斷：Scaling Laws不是物理定律，它是對工程細節高度敏感的觀測性指南。

拖更三年萬字長文，前OpenAI安全VP翁荔拆解Scaling Laws：你的模型可能喂錯了數據

相關推薦

AI 互動釀成悲劇：用戶起訴 OpenAI，稱 ChatGPT 加劇其心理病情

美團大模型生態調整：全面限用豆包，力推自研 LongCat 體系

國產大模型再迎“重磅炸彈”：Kimi K3 或於本月發佈，參數規模直指 2.5 萬億

性能提升超兩倍：英偉達發佈 Nemotron-Labs-TwoTower 擴散語言模型

奧特曼 AI 創業故事搬上大銀幕：Neon 拿下發行權，目標鎖定奧斯卡