最近,Hyperbolic 的聯合創始人兼 CTO Yuchen Jin 在社交平臺 X 上曝光了一個令人矚目的故事:研究員 Keller Jordan 僅憑一篇博客文章成功加入 OpenAI,且很可能正在利用博客中提到的神經網絡優化器 Muon 訓練最新的 GPT-5。
Keller Jordan 的這篇博客題爲《Muon:神經網絡隱藏層的優化器》,發佈於2024年12月,迅速引起了業界的關注。在這篇文章中,他詳細介紹了 Muon 的設計理念和實際成果,強調了該優化器在提高訓練速度方面的巨大潛力。Jordan 通過實驗證明,使用 Muon 能夠將 CIFAR-10任務的訓練時間縮短至原來的79%,而在 NanoGPT 的快速運行中,訓練速度也得到了顯著提升。
Muon 的核心在於它的獨特設計:它通過牛頓 - 舒爾茨迭代法(Newton-Schulz)來優化神經網絡隱藏層的參數,這一方法在實踐中表現出了優異的性能。Jordan 還指出,Muon 能夠在使用現代 GPU 進行大規模訓練時保持高效,其運行成本低於1%。此外,他對優化過程中的參數設置和效果進行了深度分析,提出了許多有價值的見解。
在博客中,Jordan 還批判了當前優化研究領域的一些問題,認爲很多新提出的優化器在實際應用中未能有效超越已有的標準,如 AdamW。他呼籲研究界關注基線調整,強調優化算法的實際應用效果。
這一創新性的優化器不僅讓 Keller Jordan 成功踏入 OpenAI 的門檻,也很可能成爲 GPT-5的重要組成部分。隨着 AI 技術的不斷髮展,Muon 的出現標誌着研究人員在提升神經網絡訓練效率方面邁出了重要一步,或許會引領未來更多的技術變革。