最近、華為は新たに発表した「昇騰 + PanGu Ultra MoE」システムを通じて驚くべき進展を示しました:約1兆パラメーターのMoE大規模モデルが、たった2秒以内で高等数学の問題を理解し答えを出すことができました。そして、この達成はGPUを使用せずに実現されており、これは華為が自主的な国産演算能力とモデル訓練において強力な力を示しています。

技術的に言えば、華為のチームは訓練システム全体のパフォーマンスを向上させ、並列処理戦略のスマートな選択と計算通信の最適化により、クラスターの訓練効率を大幅に高めることに成功しました。技術レポートの中で、華為はCloudMatrix384スーパーノード上で行った複数の技術革新について詳細に説明しており、これらには改良された通信メカニズムや負荷分散戦略が含まれています。これらの革新により、大規模なMoE訓練におけるエキスパート並列通信コストはほぼゼロになり、同時に計算負荷も効果的にバランスが取られました。

image.png

さらに、華為は単一ノードの演算能力の向上にも大きな成果を収めました。彼らはトレーニング演算子の実行を最適化することによって、マイクロバッチサイズを従来の2倍に増やし、演算子の配信効率の問題も解決しました。このような技術的進歩により、華為のシステムは複雑な計算タスクに直面しても、より効率的に既存のリソースを利用できるようになりました。

華為のこの一連の技術革新により、MoEモデルの訓練効率が大幅に向上するだけでなく、今後の大规模AIモデルの訓練と応用に新たな可能性を開きました。