OpenAI 聯合英偉達等巨頭髮布 MRC 協議，重塑大規模 AI 訓練網絡架構

昨日，OpenAI 正式發佈公告，宣佈聯合 AMD、博通（Broadcom）、英特爾、微軟及英偉達(NVIDIA)等五大行業巨頭，共同推出多路徑可靠連接（MRC）協議。該協議旨在解決大規模 AI 訓練中極易出現的網絡延遲與故障問題，並已通過開放計算項目（OCP）向全球行業開源。

在傳統的 AI 模型訓練過程中，網絡擁塞或單條鏈路的微小故障，往往會像推倒多米諾骨牌一樣，導致數萬塊 GPU 進入閒置等待狀態，造成鉅額的算力浪費。

爲了從根本上提升系統的韌性，MRC 協議引入了多平面網絡設計。它巧妙地將單一的800Gb/s 接口拆分爲多個更小的鏈路，通過這種結構優化，系統僅需兩層交換機即可支撐約13.1萬塊 GPU 的龐大集羣。相比傳統的雙層或四層架構，這一改動不僅大幅減少了物理組件數量和能耗，還顯著降低了建設成本。

除了架構上的精簡，MRC 在流量分配上也展現了全新思路。它採用了自適應數據包噴淋技術，打破了傳統的單路徑傳輸模式，將任務數據包打散並分發至數百條路徑進行並行傳輸。即便數據包在傳輸過程中亂序到達，接收端也能精準重組，從而有效避開了核心網絡的局部擁塞。

在網絡控制方面，MRC 拋棄了複雜的動態路由協議（如 BGP），轉而採用 SRv6源路由技術。這意味着發送端可以直接指定路徑，交換機只需執行簡單的靜態轉發。這種設計將網絡故障的恢復時間從以往的“秒級”直接壓縮到了“微秒級”，讓系統在面對鏈路抖動時幾乎能做到“無感自愈”。

目前，MRC 協議已在英偉達 GB200超級計算機以及甲骨文（Oracle）雲基礎設施中投入實際應用。實測數據證明，在真實的訓練場景下，即使面臨鏈路抖動或交換機重啓等突發情況，MRC 也能自動繞過故障點，確保複雜的訓練任務不被中斷。

這一協議的開源，標誌着 AI 基礎設施正從“暴力堆料”向“精細化架構”轉型。通過巨頭間的協作，AI 訓練網絡正變得更加堅韌、高效且靈活。

辦公效率革命！Claude 深度聯姻 Microsoft 365，打通 AI 辦公的“任督二脈”