返回 OpenAI 简报

OpenAI MRC:面向 AI 训练的超级计算机网络

OpenAI 的网络工程师解释了为什么同步 GPU 训练会压迫传统数据中心网络,以及 Multi-Path Reliable Connection 如何通过数据包喷洒、数据包裁剪、静态路由和开放 Ethernet 标准化,把韧性转移到端点侧。

处理日期:2026 年 5 月 27 日
OpenAI MRC 信息图,展示传统动态路由与面向同步 GPU 训练的 Multi-Path Reliable Connection 网络对比。

执行摘要

这一期将前沿 AI 训练描述为传统数据中心网络的最坏情况工作负载。Web 基础设施可以容忍独立流量和平均情况平滑,但同步 GPU 训练更像一台强耦合机器:最慢的 worker 或拥塞路径会拖住整次运行。

Multi-Path Reliable Connection(MRC)被呈现为 OpenAI 对这一瓶颈的回答。MRC 不依赖主动路由协议用数秒发现故障并收敛,而是把路径选择和故障响应推向端点,在多条路径上喷洒数据包,并用数据包裁剪快速发出拥塞信号。

更大的基础设施信息是,AI 超级计算机需要在模型、工作负载软件、网络适配器、交换机和标准之间协同设计。OpenAI 将 MRC 定位为通过 OCP 推进的开放 Ethernet 路径,使供应链围绕可互操作硬件收敛,而不是依赖单一专有网络。

关键要点

  • 同步训练把网络目标从平均吞吐量转向最坏情况尾部行为。
  • P100 尾部延迟很重要,因为最慢的链路、GPU 或路径可能决定整个训练任务的推进速度。
  • MRC 会把流量喷洒到许多可用路径上,使负载在网络架构中更均匀地分布。
  • 视频中的 ball-and-bins 示例说明,如果没有有意的端点控制,朴素多路径仍可能制造最坏情况不均衡。
  • 数据包裁剪通过转发报头并丢弃载荷,为端点提供明确的拥塞信号。
  • 把故障检测移到端点,可以把恢复从 BGP 式收敛时间缩短到毫秒级决策。
  • 静态路由表降低交换机控制平面复杂度,让大规模网络架构更加确定。
  • 当数据包分布足够均匀时,更扁平的网络拓扑可以减少交换层级、资本成本和功耗。
  • 通过 OCP 开放标准化,被定位为对齐 Microsoft、NVIDIA、Broadcom、AMD 和 Intel 等厂商的方式。

构建者启发

  • 分析分布式系统时要看尾部延迟和同步停顿,而不只是总带宽。
  • 当中央控制平面收敛会暂停整个工作负载时,优先考虑去中心化恢复路径。
  • 基础设施和软件要一起设计;模型规模、集合通信、NIC 行为和交换机拓扑是耦合的。
  • 尽可能使用开放标准,以降低供应商锁定并保留硬件供应链灵活性。
  • 对大型集群来说,能效是模型容量的一部分:减少不必要的交换层级,可以把更多功率留给加速器。

待验证事项

  • 高密度训练工作负载中 IPv6 Segment Routing 报头带来的有效带宽开销。
  • 混合加速器、NIC、交换机和云提供商基础设施池中的真实行为。
  • 数据包喷洒、数据包裁剪和快速重路由对端点硬件、驱动和固件的确切要求。
  • 随着集群规模和网络直径增长,启动时静态路由表的运维限制。
  • 许多链路或设备同时失效的相关故障场景中的行为。