OpenAI 與 AMD、Broadcom、Intel、Microsoft、NVIDIA 合作推出 MRC 網路協定,提升超級電腦 AI 訓練效能與可靠性。
OpenAI 於 2026 年 5 月 5 日發布 Multipath Reliable Connection (MRC),這是全新開放式網路協定,已部署於所有最大規模超級電腦,包括德州 Abilene 的 Oracle Cloud Infrastructure (OCI) 站點與 Microsoft 的 Fairwater 超級電腦,用以加速前沿模型(Frontier models)訓練。透過 Open Compute Project (OCP) 開放規格,讓產業廣泛採用,解決大規模叢集中的網路擁塞與故障問題。
合作夥伴與發布背景
OpenAI 與 AMD、Broadcom、Intel、Microsoft、NVIDIA 攜手開發 MRC,歷時兩年,已整合至最新 800Gb/s 網路介面卡。MRC 延伸 RDMA over Converged Ethernet (RoCE) 標準,借鏡 Ultra Ethernet Consortium (UEC) 技術,並加入 SRv6 來源路由,支援大規模 AI 網路架構。規格已透過 OCP 貢獻公開,並發表論文「Resilient AI Supercomputer Networking using MRC and SRv6」,記錄實作經驗。
網路挑戰與必要性
訓練大型 AI 模型單步驟涉及數百萬資料傳輸,一筆延遲即波及全工作,導致 GPU 閒置。常見問題包括網路擁塞、鏈路與裝置故障,隨叢集規模擴大而加劇,尤其在同步預訓練中,單一故障如鏈路抖動會放大影響,迫使從檢查點重啟或停滯數秒,浪費 GPU 時脈與時間。Stargate 規模超級電腦設計因此視網路為關鍵,需最小化擁塞並減低故障衝擊。
MRC 核心解決方案
MRC 不僅追求高速,更確保預測性效能,即使故障時訓練不中斷。目標是讓單一傳輸分散至數百路徑,微秒級繞過故障,並簡化控制平面。
多平面網路基礎
將單一 800Gb/s 介面拆分為多個 100Gb/s 小鏈路,例如一介面連八個交換器,形成八平面平行網路。單交換器從 64 個 800Gb/s 埠擴至 512 個 100Gb/s 埠,僅需兩層交換器全連約 131,000 個 GPU,傳統 800Gb/s 設計則需三至四層。此設計降低功耗、元件數、故障點與成本,提供更多路徑多樣性,並讓更多流量留於 Tier 0 交換器,提升效能。
適應性封包噴灑機制
傳統 RoCE 要求單路徑傳輸,易在多平面中碰撞造成擁塞,影響同步訓練。MRC 將單傳輸封包噴灑至數百路徑跨所有平面,封包攜帶最終記憶體位址,無序到達即寫入記憶體。
避免熱點,防止單交易延遲拖累整體。
每個 MRC 連線追蹤多路徑狀態,偵測擁塞即切換路徑,平衡負載。
封包遺失時假設路徑故障,立即停用並重傳,後續發探針確認恢復。
目的地擁塞時,交換器「封包裁剪」僅轉發標頭,觸發明確重傳,減少誤判。
此組合讓 MRC 微秒級偵測故障並繞行,傳統網路需數秒至數十秒穩定。
SRv6 來源路由取代動態路由
傳統 BGP 等動態路由複雜,交換器軟體故障難診斷,常致連線中斷。MRC 停用動態路由,改用 IPv6 Segment Routing (SRv6):發送端嵌入交換器 ID 序列於目的位址。
交換器檢查自身 ID,若匹配則移除並移位下一 ID,依靜態路由表轉發。
靜態表初次配置後不變,交換器僅盲從,無需重算路徑。
MRC 藉 SRv6 同時噴灑所有平面與內部多路徑,故障時直接停用,消除動態路由故障類型。
生產環境實測成果
MRC 已部署於所有 OpenAI 最大 NVIDIA GB200 超級電腦,用於訓練多個模型,包括 ChatGPT 與 Codex 的前沿模型。訓練網路有數百萬鏈路,每分鐘 Tier 0 與 Tier 1 間多起鏈路抖動,但 MRC 確保同步預訓練無可測影響,無需立即修復。
重啟四個 Tier 1 交換器時,無需協調訓練團隊。
維修中可邊用邊修,MRC 避開不良鏈路。
GPU 介面至 Tier 0 鏈路故障時,訓練存活,效能降幅小於物理容量損失(如 8 埠失一埠,降 1/8 但實際更低);MRC 偵測後重算路徑,通知對端避開,1 分內恢復即重用。
三大關鍵優勢
兩層多平面架構:超 100,000 GPU 僅兩層乙太交換器,提供足夠冗餘,功耗低於三四層單平面。
無核心擁塞:適應性噴灑消除流量變異,多工作共享叢集互不干擾,適合同步訓練。
快速故障繞行:SRv6 靜態控制平面,簡化運維,避開動態路由問題。
開放策略與影響
MRC 加速前沿模型訓練,網路追上研究路線圖,穿越擁塞、故障與維護而不中斷 GPU 同步,為 AGI 帶來可靠效益。OpenAI 強調共享標準降低堆疊複雜度,並感謝合作夥伴在部署上的共同努力。隨著叢集成長,網路決定可用運算比例,MRC 使可靠性成為同步訓練可行關鍵,非可有可無。