騰訊近日發佈了自研星脈網絡2.0版本,這一重大升級爲大規模人工智能模型訓練帶來了顯著的性能提升。新版本在網絡規模、硬件性能、通信協議和故障診斷等多個方面都實現了突破。

據瞭解,網絡規模方面,星脈網絡2.0支持單集羣10萬卡組網,爲大規模AI訓練提供了強大的基礎設施支持。這一擴展爲未來更大規模的AI模型訓練奠定了基礎。

互聯網 大數據2

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

在硬件升級方面,騰訊自研交換機容量從25.6T提升到51.2T,實現了容量翻倍。同時,自研硅光模塊速率從200G升級到400G,速率也提升了一倍。新版本還搭載了自研算力網卡,使整機通信帶寬達到3.2T,居業界領先水平。這些硬件升級爲網絡性能的大幅提升提供了堅實的基礎。

通信協議方面,騰訊推出了全新的TiTa2.0協議,其部署位置從交換機轉移到了網卡上。同時,擁塞算法也升級爲主動擁塞控制算法。這些優化使得通信效率提升了30%,大模型訓練效率提升10%。

此外,騰訊還推出了全新的高性能集合通信庫TCCL2.0。該庫採用NVLINK+NET異構並行通信技術,實現了數據的並行傳輸。配合Auto-Tune Network Expert自適應算法,系統可以根據機型、網絡規模、模型算法等差異,自動調整各種參數。這一升級使得通信性能再次提升30%,大模型訓練效率額外提升10%。

值得注意的是,TiTa與TCCL的升級效果疊加,使得星脈網絡的通信效率總共提升了60%,大模型訓練效率總體提升20%。這一顯著的性能提升,將大大加速AI模型的訓練過程,爲研究人員和開發者提供更高效的工作環境。