OpenAI MRC：面向 AI 训练的超级计算机网络

OpenAI 的网络工程师解释了为什么同步 GPU 训练会压迫传统数据中心网络，以及 Multi-Path Reliable Connection 如何通过数据包喷洒、数据包裁剪、静态路由和开放 Ethernet 标准化，把韧性转移到端点侧。

处理日期：2026 年 5 月 27 日

OpenAI MRC 信息图，展示传统动态路由与面向同步 GPU 训练的 Multi-Path Reliable Connection 网络对比。

执行摘要

这一期将前沿 AI 训练描述为传统数据中心网络的最坏情况工作负载。Web 基础设施可以容忍独立流量和平均情况平滑，但同步 GPU 训练更像一台强耦合机器：最慢的 worker 或拥塞路径会拖住整次运行。

Multi-Path Reliable Connection（MRC）被呈现为 OpenAI 对这一瓶颈的回答。MRC 不依赖主动路由协议用数秒发现故障并收敛，而是把路径选择和故障响应推向端点，在多条路径上喷洒数据包，并用数据包裁剪快速发出拥塞信号。

更大的基础设施信息是，AI 超级计算机需要在模型、工作负载软件、网络适配器、交换机和标准之间协同设计。OpenAI 将 MRC 定位为通过 OCP 推进的开放 Ethernet 路径，使供应链围绕可互操作硬件收敛，而不是依赖单一专有网络。

关键要点

同步训练把网络目标从平均吞吐量转向最坏情况尾部行为。
P100 尾部延迟很重要，因为最慢的链路、GPU 或路径可能决定整个训练任务的推进速度。
MRC 会把流量喷洒到许多可用路径上，使负载在网络架构中更均匀地分布。
视频中的 ball-and-bins 示例说明，如果没有有意的端点控制，朴素多路径仍可能制造最坏情况不均衡。
数据包裁剪通过转发报头并丢弃载荷，为端点提供明确的拥塞信号。
把故障检测移到端点，可以把恢复从 BGP 式收敛时间缩短到毫秒级决策。
静态路由表降低交换机控制平面复杂度，让大规模网络架构更加确定。
当数据包分布足够均匀时，更扁平的网络拓扑可以减少交换层级、资本成本和功耗。
通过 OCP 开放标准化，被定位为对齐 Microsoft、NVIDIA、Broadcom、AMD 和 Intel 等厂商的方式。

构建者启发

分析分布式系统时要看尾部延迟和同步停顿，而不只是总带宽。
当中央控制平面收敛会暂停整个工作负载时，优先考虑去中心化恢复路径。
基础设施和软件要一起设计；模型规模、集合通信、NIC 行为和交换机拓扑是耦合的。
尽可能使用开放标准，以降低供应商锁定并保留硬件供应链灵活性。
对大型集群来说，能效是模型容量的一部分：减少不必要的交换层级，可以把更多功率留给加速器。

待验证事项

高密度训练工作负载中 IPv6 Segment Routing 报头带来的有效带宽开销。
混合加速器、NIC、交换机和云提供商基础设施池中的真实行为。
数据包喷洒、数据包裁剪和快速重路由对端点硬件、驱动和固件的确切要求。
随着集群规模和网络直径增长，启动时静态路由表的运维限制。
许多链路或设备同时失效的相关故障场景中的行为。