近日,人工智能領域再度掀起波瀾,月之暗面(Moonshot)宣佈開源新版優化器 Muon,成功將計算效率提升至傳統 AdamW 的兩倍。這個新優化器的推出恰逢 DeepSeek 即將連續開源多個代碼庫,引發了業內的高度關注和討論。

Muon 優化器最初由 OpenAI 的研究者 Keller Jordan 等人在2024年提出,針對小規模模型訓練時表現優異。然而,隨着模型規模的擴大,原始 Muon 在性能提升上遭遇瓶頸。爲此,月之暗麪糰隊進行了深入的技術改進,主要包括添加權重衰減和一致的均方根(RMS)更新,以支持在大規模訓練中應用 Muon,無需再進行超參數調整。
新的 Muon 優化器已被應用於最新推出的 Moonlight 模型,這是一種擁有3B/16B 參數的混合專家(MoE)模型,在經過5.7萬億 tokens 的訓練後,性能顯著提升,成爲當前的 “帕累託前沿”。這一成果意味着,在相同的訓練預算下,Moonlight 模型在所有性能指標上均超越其他模型。
月之暗面還開源了 Muon 的實現代碼,併發布了相應的預訓練和中間檢查點,爲研究人員的後續研究提供了寶貴資源。研究表明,Muon 優化器在訓練過程中所需的 FLOPs 僅爲 AdamW 的52%,這進一步驗證了其在大規模語言模型訓練中的高效性。
月之暗面的 Muon 優化器不僅在性能上超越了傳統的優化器,而且通過開源的形式爲整個 AI 領域的發展注入了新的活力。隨着越來越多的研究者和開發者的參與,這一優化器有望推動人工智能技術的進一步進步。
論文地址:https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf
