在全球人工智能發展的浪潮中,模型推理的速度和效率愈發成爲焦點。近期,華爲的數學團隊在 DeepSeek 開源週期間推出了名爲 FlashComm 的新技術,旨在通過三項創新措施,大幅提升大模型推理的性能,最高可達80% 的速度提升。
首先,FlashComm 技術重點優化了 AllReduce 通信操作。傳統的 AllReduce 方法就像一輛裝滿貨物的集裝箱車,不夠靈活。華爲團隊通過智能化手段,將數據分爲兩部分:先進行 ReduceScatter,然後再進行 AllGather。這一重組過程使得後續的通信量減少了35%,同時關鍵計算量也減少到原來的1/8,推理性能提升了22% 到26%。
其次,在推理過程中,華爲發現可以通過調整矩陣乘法的並行維度來減輕通信負擔。在保持結果精確的前提下,三維張量被 “壓扁” 成二維矩陣,結合 INT8量化技術,數據傳輸量驟降86%,整體推理速度提升33%。這一策略就像將大型貨物裝入小型集裝箱,讓數據傳輸變得更加高效。
最後,華爲的多流並行技術打破了傳統串行計算的侷限。在 MoE 模型的推理過程中,華爲團隊將複雜的計算流程進行拆解和重組,藉助昇騰硬件的多流引擎實現了三條計算流的精準並行。這種方法可以在一組數據進行專家計算的同時,另一組數據已經進入門控決策階段,從而最大限度地提高計算效率。
FlashComm 的發佈標誌着華爲在大模型推理領域的一次重大技術突破。這不僅將提升模型的推理速度,還將推動人工智能應用的發展,爲科研和工業領域的 AI 應用帶來新的機遇。