グローバルな人工知能開発の波の中で、モデルの推論速度と効率がますます注目されています。最近、Huaweiの数学者チームはDeepSeekのオープンソース期間中に「FlashComm」という新しい技術を発表しました。この技術は、三つの革新的な対策を通じて、大規模モデルの推論性能を最大で80%向上させることを目指しています。

まず、FlashComm技術はAllReduce通信操作を最適化することに重点を置いています。従来のAllReduce方法は、貨物を満載したコンテナトラックのようなもので、柔軟性がありませんでした。Huaweiのチームは、データを二つに分け、最初にReduceScatterを行い、その後AllGatherを行うという手法を取り入れました。この再編プロセスにより、後続の通信量が35%減少し、重要な計算量も従来の1/8にまで削減され、推論性能は22%から26%向上しました。

image.png

次に、推論プロセスでは、Huaweiは行列積の並列次元を調整することで通信負荷を軽減できることに気付きました。結果の正確さを保ちつつ、三次元テンソルを二次元マトリックスに「圧縮」し、INT8量子化技術を組み合わせることで、データ転送量は急激に86%減少し、全体的な推論速度は33%向上しました。この戦略は、大きな貨物を小型のコンテナに入れることに似ており、データ転送をより効率的にしています。

image.png

最後に、Huaweiのマルチストリーム並列技術は、従来の直列計算の制限を超えています。MoEモデルの推論プロセスでは、Huaweiのチームは複雑な計算プロセスを分解・再構築し、昇騰ハードウェアのマルチストリームエンジンを使用して三条の計算ストリームを正確に並列処理しました。この方法では、あるデータ群が専門家の計算を行っている間に、別のデータ群はゲート決定段階に入ることになり、計算効率を最大限に高めることができます。

image.png

FlashCommのリリースは、Huaweiが大規模モデルの推論分野で大きな技術的ブレークスルーを遂げたことを示しています。これは単にモデルの推論速度を向上させるだけでなく、人工知能アプリケーションの発展を促進し、科学研究や産業分野におけるAI応用に新たな機会をもたらします。