最近,華爲通過其新推出的 “昇騰 + Pangu Ultra MoE” 系統展示了一個令人驚歎的突破:一個近萬億參數的 MoE 大模型在短短2秒內就能理解並解答一道高等數學題。而這一切都在沒有使用 GPU 的情況下實現,顯示出華爲在自主可控的國產算力和模型訓練方面的強大能力。

在技術層面,華爲的團隊成功提升了訓練系統的整體性能,通過智能選擇並行策略和優化計算通信,大幅提高了集羣的訓練效率。在其技術報告中,華爲詳盡披露了在 CloudMatrix384超節點上進行的多項技術創新,包括改進的通信機制和負載均衡策略。這些創新使得大規模 MoE 訓練的專家並行通信開銷幾乎降至零,同時有效平衡了計算負載。

image.png

此外,華爲在提高單節點算力方面也取得了顯著成效。他們通過優化訓練算子的執行,成功將微批處理規模提升至原來的兩倍,同時解決了算子下發的效率問題。這種技術的進步意味着,華爲的系統在面對複雜計算任務時,能夠更加高效地利用現有資源。

華爲的這一系列技術創新不僅讓 MoE 模型的訓練效率大幅提升,更爲未來大規模 AI 模型的訓練與應用打開了新的可能性。