騰訊雲最近推出了升級版的星脈網絡2.0,旨在提高大模型訓練的效率。在之前的版本中,大型模型的計算結果同步通信時間佔據了50% 以上的比例,導致效率低下。新版本的星脈網絡2.0在多個方面進行了升級:

微信截圖_20240701164156.png

1. 支持單集羣10萬卡組網,規模翻倍,網絡通信效率提升60%,大模型訓練效率提升20%,故障定位從天級降低至分鐘級。

2. 自研交換機、光模塊、網卡等網絡設備升級,基礎設施更加可靠,支持單集羣10萬卡 GPU 以上的規模。

3. 全新通信協議 TiTa2.0部署在網卡上,擁塞算法升級爲主動擁塞控制算法,通信效率提升30%,大模型訓練效率提升10%。

4. 高性能集合通信庫 TCCL2.0採用 NVLINK+NET 異構並行通信,實現數據的並行傳輸,同時具備 Auto-Tune Network Expert 自適應算法,提升通信性能30%,大模型訓練效率提升10%。

5. 新增騰訊獨家技術靈境仿真平臺,實現全面監控集羣網絡,精確定位 GPU 節點問題,將萬卡級訓練故障定位時間從天級降低至分鐘級。

通過這些升級,星脈網絡的通信效率提升60%,大模型訓練效率提升20%,故障定位精準度也得到了提升。這些改進將有助於提高大型模型訓練的效率和性能,讓昂貴的 GPU 資源得到更充分的利用。