深度計算領域再添利器!摩爾線程今日重磅宣佈,正式開源MT-MegatronLM與MT-TransformerEngine兩大AI框架,這一舉措將爲國產計算基礎設施注入強勁動力。這兩大框架通過深度融合FP8混合訓練策略和高性能算子庫,成功在國產全功能GPU上實現混合並行訓練和推理,大幅提升了大模型訓練的效率與穩定性。
摩爾線程此次開源的MT-MegatronLM框架專爲全功能GPU打造,支持dense模型、多模態模型及MoE(混合專家)模型的高效訓練,滿足了當前AI領域多樣化的訓練需求。而MT-TransformerEngine則主攻Transformer模型的訓練與推理優化,通過算子融合、並行加速策略等技術,有效釋放了摩爾線程全功能GPU高密度計算的潛力,顯著提升了memory bound算子的效率。

這兩大框架的技術突破主要體現在硬件適配與算法創新的深度協同。首先,它們支持多種類型模型的混合並行訓練,能夠靈活應對不同模型架構的複雜運算場景;其次,結合摩爾線程GPU原生支持的FP8混合精度訓練策略,有效提升了訓練效率;第三,通過高性能算子庫muDNN與通信庫MCCL的深度集成,系統性優化了計算密集型任務與多卡協同的通信開銷;同時,結合開源Simumax庫,能夠自動進行並行策略搜索,並針對不同模型和加速環境最大化並行訓練性能;此外,框架內置的rewind異常恢復機制可自動回滾至最近穩定節點繼續訓練,大幅提升了大規模訓練的穩定性;最後,兩個框架兼容GPU主流生態,既保障了現有生態的平滑遷移,也爲開發者構建自有的AI技術棧提供了底層支撐。

在實際應用中,這兩大框架的表現令人印象深刻。在全功能GPU集羣上,Llama38B模型的訓練任務利用FP8技術在loss幾乎無損的情況下,MFU(模型吞吐利用率)竟能達到90%以上,相比原來提升了28%的訓練速度。此外,摩爾線程已深度集成並開源對DeepSeek並行算法DualPipe的高效支持,MT-DualPipe完整接入MT-Megatron框架和MT-TransformerEngine框架後,成功實現了DeepSeek V3訓練流程的完整復現,支持MLA、MTP及多種專家平衡策略。通過多種Transformer算子融合技術,這些框架顯著提升了內存帶寬利用率,有效緩解了memory bound瓶頸,進一步釋放了國產GPU的硬件潛力。
摩爾線程表示將持續優化這兩大框架,並計劃引入一系列新功能:包括Dual Pipe/ZeroBubble並行策略以進一步降低氣泡率,提升並行訓練效率;多種獨創的FP8優化策略以提高訓練的性能和穩定性;異步checkpoint策略以提高訓練過程中的容錯能力和效率;優化後的重計算策略以減少計算和顯存開銷,提高訓練速度;獨創的容錯訓練算法以增強訓練過程中的容錯能力;以及集成摩爾線程FlashMLA和DeepGemm庫以進一步釋放摩爾線程GPU的算力和FP8計算能力,全面提升計算性能和效率。
這一系列技術突破與開源舉措,不僅展示了摩爾線程在AI算力領域的實力,更爲國產AI基礎設施的發展開闢了新的可能性,讓我們拭目以待其在AI模型訓練領域帶來的更多突破。
