5月6日、人工知能のリーディング企業であるOpenAIは、AMD、ボーデック(Broadcom)、インテル、マイクロソフト、NVIDIAなどの業界の大手企業と協力して、「マルチパス信頼性接続(Multipath Reliable Connection、略称
このプロトコルの主な目的は、技術的手段を通じて大型AIトレーニングクラスタの運用パフォーマンスを最適化することです。従来のモデルトレーニングでは、ネットワーク接続の不安定さや配分の不均等により、高価なGPUの演算能力がデータ転送を待つ間に無駄にされ、大きなリソースの浪費を引き起こしていました。MRCプロトコルは、より信頼性の高いマルチパス接続の解決策を提供し、データ転送の安定性を著しく向上させ、電力消費を大幅に削減し、全体的な計算効率を向上させることを目的としています。
今後、MRCプロトコルは理論段階にとどまらず、すでにOpenAI内で完全に導入されています。前線モデルを開発するためのすべての大型スーパーコンピュータにはこのプロトコルが導入されており、アメリカテキサス州アビリンにあるオラクルクラウドインフラストラクチャ(OCI)サイトや、マイクロソフト傘下のFairwaterスーパーコンピュータクラスタを含んでいます。
AIモデルのパラメータ規模が継続的に増加している中、下部インフラストラクチャの効率的な最適化が各社が争う新たな戦場となっています。今回のOpenAIによる複数のハードウェアチップメーカーおよびクラウドサービスプロバイダーとの協力を通じたオープンプロトコルの公開は、単に自身のトレーニングコスト問題を解決するだけでなく、AI時代におけるネットワーク通信の標準を主導しようとする意図も示しています。業界にとって、MRCの公開は、超大規模な計算能力クラスタがより効率的で、より環境に優しい新時代に入ることを可能にするかもしれません。
