昨日,OpenAI 正式發佈公告,宣佈聯合 AMD、博通(Broadcom)、英特爾、微軟及英偉達(NVIDIA)等五大行業巨頭,共同推出多路徑可靠連接(MRC)協議。該協議旨在解決大規模 AI 訓練中極易出現的網絡延遲與故障問題,並已通過開放計算項目(OCP)向全球行業開源。

image.png

擊碎“單點故障”:從三層架構到兩層設計的跨越

在傳統的 AI 模型訓練過程中,網絡擁塞或單條鏈路的微小故障,往往會像推倒多米諾骨牌一樣,導致數萬塊 GPU 進入閒置等待狀態,造成鉅額的算力浪費。

爲了從根本上提升系統的韌性,MRC 協議引入了多平面網絡設計。它巧妙地將單一的800Gb/s 接口拆分爲多個更小的鏈路,通過這種結構優化,系統僅需兩層交換機即可支撐約13.1萬塊 GPU 的龐大集羣。相比傳統的雙層或四層架構,這一改動不僅大幅減少了物理組件數量和能耗,還顯著降低了建設成本。

流量調度新方案:數據包“噴淋”與微秒級自愈

除了架構上的精簡,MRC 在流量分配上也展現了全新思路。它採用了自適應數據包噴淋技術,打破了傳統的單路徑傳輸模式,將任務數據包打散並分發至數百條路徑進行並行傳輸。即便數據包在傳輸過程中亂序到達,接收端也能精準重組,從而有效避開了核心網絡的局部擁塞。

在網絡控制方面,MRC 拋棄了複雜的動態路由協議(如 BGP),轉而採用 SRv6源路由技術。這意味着發送端可以直接指定路徑,交換機只需執行簡單的靜態轉發。這種設計將網絡故障的恢復時間從以往的“秒級”直接壓縮到了“微秒級”,讓系統在面對鏈路抖動時幾乎能做到“無感自愈”。

落地實測:超級計算機的“防抖”利器

目前,MRC 協議已在英偉達 GB200超級計算機以及甲骨文(Oracle)雲基礎設施中投入實際應用。實測數據證明,在真實的訓練場景下,即使面臨鏈路抖動或交換機重啓等突發情況,MRC 也能自動繞過故障點,確保複雜的訓練任務不被中斷。

這一協議的開源,標誌着 AI 基礎設施正從“暴力堆料”向“精細化架構”轉型。通過巨頭間的協作,AI 訓練網絡正變得更加堅韌、高效且靈活。