昨日、OpenAI は正式に発表を行い、AMD、ブロードコム(Broadcom)、インテル、マイクロソフト、NVIDIA などの業界の主要な企業と共同で、マルチパスリレーシブルコンネクション(MRC)プロトコルを共同して公開しました。このプロトコルは、大規模なAIトレーニングにおいてよく発生するネットワーク遅延や障害問題を解決することを目的としており、オープンコンピューティングプロジェクト(OCP)を通じて世界中の業界にオープンソースとして提供されています。

「単一障害点」を打ち破る:3層構造から2層設計への飛躍
従来のAIモデルトレーニングでは、ネットワークの混雑や1本のリンクの小さな障害が、ドミノ倒しのように数万枚のGPUを待機状態に陥れ、膨大な計算力の浪費を引き起こすことがよくありました。
MRCプロトコルは、システムの耐性を根本的に向上させるために、マルチプレーンネットワーク設計を導入しました。これは、単一の800Gb/sインターフェースを複数の小さなリンクに分割することで、構造の最適化を図っています。これにより、約13.1万個のGPUをサポートする大規模クラスターを、2段階のスイッチだけで構築することが可能になります。従来の2段階または4段階の構造と比較すると、この変更により物理的な部品数と消費電力を大幅に削減し、建設コストも顕著に低減しています。
トラフィック配分の新方案:データパケットの「散布」とマイクロ秒級の自己修復
構造の簡略化だけでなく、MRCはトラフィックの配分においても新しいアプローチを示しています。それは、アダプティブデータパケット散布技術を使用し、従来の単一路線伝送モードを打ち破り、タスク用のデータパケットを数百の経路に分散して並列伝送します。データパケットが伝送中に順序が乱れても、受信側は正確に再構成できるため、ネットワークの一部の混雑を効果的に回避することができます。
ネットワーク制御に関しては、MRCは複雑な動的ルーティングプロトコル(例えばBGP)を放棄し、代わりにSRv6ソースルーティング技術を採用しています。これにより、送信元が直接経路を指定でき、スイッチは単純な静的転送を行うだけで済みます。この設計により、ネットワーク障害の回復時間が以前の「秒単位」から「マイクロ秒単位」に直接圧縮され、リンクのジャンプに対してもほぼ「感覚なしの自己修復」が可能になりました。
実証テスト:スーパーコンピュータの「ジャイロ安定装置」
現在、MRCプロトコルはNVIDIA GB200スーパーコンピュータおよびオラクル(Oracle)クラウドインフラストラクチャで実際の運用に移行しています。実測データによると、実際のトレーニングシナリオにおいて、リンクのジャンプやスイッチの再起動などの突然の状況でも、MRCは障害点を自動的に回避し、複雑なトレーニングタスクが中断されることなく進行することを確認しています。
