在 AI 的世界裏,"大力出奇跡" 似乎成了金科玉律。模型越大,數據越多,算力越強,彷彿就能越接近智能的聖盃。然而,這狂飆突進的背後,也隱藏着巨大的成本和能耗壓力。
爲了讓 AI 訓練更高效,科學家們一直在尋找更強大的優化器,就像一位教練,引導模型的參數不斷優化,最終達到最佳狀態。AdamW 作爲 Transformer 預訓練的默認優化器,多年來一直是業界標杆。然而,面對日益龐大的模型規模,AdamW 也開始顯得力不從心。

難道就沒有一種方法,既能提升訓練速度,又能降低能耗嗎?別急,一個全華人團隊帶着他們的 "祕密武器" C-AdamW 來啦!
C-AdamW 全稱 Cautious AdamW,中文名 "謹慎 AdamW",是不是聽起來就很 "佛系"?沒錯,C-AdamW 的核心思想就是 "三思而後行"。

想象一下,模型的參數就像一羣精力旺盛的小朋友,總想四處亂跑。AdamW 就像一位盡職盡責的老師,努力引導他們朝着正確的方向前進。但有時候,小朋友們會過於興奮,跑錯了方向,反而浪費了時間和精力。
這時候,C-AdamW 就像一位智慧的長者,戴着一副 "火眼金睛",能夠精準識別更新方向是否正確。如果方向錯了,C-AdamW 就會果斷喊停,避免模型在錯誤的道路上越走越遠。

這種 "謹慎" 的策略,保證了每次更新都能有效地降低損失函數,從而加快模型的收斂速度。實驗結果表明,C-AdamW 在 Llama 和 MAE 預訓練中,將訓練速度提升至1.47倍!
更重要的是,C-AdamW 幾乎沒有額外的計算開銷,只需對現有代碼進行一行簡單的修改即可實現。這意味着,開發者們可以輕鬆地將 C-AdamW 應用到各種模型訓練中,享受 "速度與激情"!
C-AdamW 的 "佛系" 之處,還在於它保留了 Adam 的哈密頓函數,並在李雅普諾夫分析下不破壞收斂性保證。這意味着,C-AdamW 不僅速度更快,而且穩定性也得到了保障,不會出現訓練崩潰等問題。
當然,"佛系" 不代表 "不思進取"。研究團隊表示,他們將繼續探索更豐富的 ϕ 函數,並在特徵空間而非參數空間中應用掩碼,以進一步提升 C-AdamW 的性能。
可以預見,C-AdamW 將成爲深度學習領域的新寵,爲大模型訓練帶來革命性的改變!
論文地址:https://arxiv.org/abs/2411.16085
GitHub:
https://github.com/kyleliang919/C-Optim
