大模型推理正在重新定義AI基礎設施,網絡架構創新成爲釋放硬件潛能的關鍵路徑。2025年9月,智譜、馭馴網絡與清華大學在網絡領域頂級會議ACM SIGCOMM2025上發表了關於ZCube網絡架構的研究成果。

2026年5月21日,智譜宣佈該架構已在GLM-5.1coding生產環境中成功落地,實現了跨越式的性能調優。基準測試表明,在GPU、軟件棧及應用保持不變的前提下,ZCube架構使交換機與光模塊的資本支出減少33%,GPU平均推理吞吐提升15%,首Token時延(TTFT P99)降低40.6%,實現了兼顧高經濟性與高性能的系統級突破。

QQ20260521-105720.jpg

當前,隨着長上下文推理與Prefill-Decode(PD)分離部署成爲行業主流,KV Cache的跨節點傳輸呈現出高度的不對稱性。傳統基於多層交換機堆疊的ROFT(Rail-Optimized Fat-Tree)架構因靜態拓撲限制,極易引發局部熱點與PFC反壓,形成“總帶寬寬裕、局部頻繁擁塞”的結構性瓶頸。

QQ20260521-105738.jpg

針對這一痛點,ZCube架構打破了傳統Clos架構的層次化堆疊思路,取消了Spine層交換機,採用完全扁平化的兩組交換機進行二部圖互聯,並結合雙端口網卡的單/多軌混合接入機制。配合特有的路由策略,ZCube能確保任意GPU對之間擁有獨享的最優路徑,從結構層面完美實現流量負載均衡,可支持數萬張乃至數十萬張GPU的超大規模擴展。

在生產環境改造中,馭馴網絡團隊利用自動化控制與校驗工具,成功克服了佈線和路由策略重構的挑戰,保障了集羣的快速平穩升級。目前該千卡集羣已穩定運行兩週以上。ZCube的成功落地標誌着智算基礎設施正從通用互聯走向模型流量驅動的系統協同。未來,網絡拓撲、通信庫與調度策略的深度耦合,將成爲進一步提升Token生產效率與降低MaaS綜合成本的核心驅動力。