大規模モデルの推論はAIインフラを再定義しており、ネットワークアーキテクチャのイノベーションがハードウェアの潜在能力を解放する鍵となっています。2025年9月、智譜(Zhipu)、驭駿ネットワーク(Yuxun Network)および清華大学は、ネットワーク分野の頂級会議ACM SIGCOMM2025でZCubeネットワークアーキテクチャに関する研究結果を発表しました。

2026年5月21日、智譜はこのアーキテクチャがGLM-5.1codingの本番環境で成功裏に実装され、性能の飛躍的な最適化を達成したと発表しました。ベンチマークテストによると、GPU、ソフトウェアスタック、アプリケーションを変更せずに、ZCubeアーキテクチャによりスイッチと光モジュールの資本支出が33%削減され、GPUの平均推論スループットが15%向上し、最初のトークン遅延(TTFT P99)が40.6%低下しました。これは経済性と高性能の両方を兼ね備えたシステムレベルの突破です。

QQ20260521-105720.jpg

現在、長文のコンテキストでの推論やPrefill-Decode(PD)分離配備が業界の主流となる中、KVキャッシュのノード間送信は高度な非対称性を示しています。従来の多段スイッチスタックに基づくROFT(Rail-Optimized Fat-Tree)アーキテクチャは静的トポロジーの制限により、局所的なホットスポットやPFCバックプレッシャーが発生しやすく、構造的なボトルネックとなる「総帯域幅は十分ながら、局所的に頻繁に混雑する」状況が生じます。

QQ20260521-105738.jpg

この課題に対処するために、ZCubeアーキテクチャは従来のClosアーキテクチャの階層化スタックの考え方を打ち破り、Spineレイヤーのスイッチを廃止し、完全に平坦な2つのスイッチを使用して二部グラフで接続し、ダブルポートネットワークカードの単軌・多軌混合アクセスメカニズムを組み合わせています。特有のルーティング戦略と併せて、ZCubeは任意のGPU間で専用の最適経路を持つことを確保し、構造面から完全なトラフィック負荷バランスを実現でき、数万枚乃至数十万枚のGPUの超大規模拡張をサポートできます。

生産環境への改造において、驭駿ネットワークチームは自動制御および検証ツールを活用し、配線とルーティング戦略の再構築の課題を成功裏に克服し、クラスタの迅速かつ安定したアップグレードを確保しました。現在、この千カードクラスタは2週間以上安定して動作しています。ZCubeの実装成功は、知算インフラが汎用的な接続からモデル流量駆動のシステム協調へと移行していることを示しています。今後、ネットワークトポロジー、通信ライブラリおよびスケジューリング戦略の深い統合が、トークン生成効率の向上とMaaS全体コストの削減の核心的要因となるでしょう。