执行摘要
这一期将前沿 AI 训练描述为传统数据中心网络的最坏情况工作负载。Web 基础设施可以容忍独立流量和平均情况平滑,但同步 GPU 训练更像一台强耦合机器:最慢的 worker 或拥塞路径会拖住整次运行。
Multi-Path Reliable Connection(MRC)被呈现为 OpenAI 对这一瓶颈的回答。MRC 不依赖主动路由协议用数秒发现故障并收敛,而是把路径选择和故障响应推向端点,在多条路径上喷洒数据包,并用数据包裁剪快速发出拥塞信号。
更大的基础设施信息是,AI 超级计算机需要在模型、工作负载软件、网络适配器、交换机和标准之间协同设计。OpenAI 将 MRC 定位为通过 OCP 推进的开放 Ethernet 路径,使供应链围绕可互操作硬件收敛,而不是依赖单一专有网络。
关键要点
- 同步训练把网络目标从平均吞吐量转向最坏情况尾部行为。
- P100 尾部延迟很重要,因为最慢的链路、GPU 或路径可能决定整个训练任务的推进速度。
- MRC 会把流量喷洒到许多可用路径上,使负载在网络架构中更均匀地分布。
- 视频中的 ball-and-bins 示例说明,如果没有有意的端点控制,朴素多路径仍可能制造最坏情况不均衡。
- 数据包裁剪通过转发报头并丢弃载荷,为端点提供明确的拥塞信号。
- 把故障检测移到端点,可以把恢复从 BGP 式收敛时间缩短到毫秒级决策。
- 静态路由表降低交换机控制平面复杂度,让大规模网络架构更加确定。
- 当数据包分布足够均匀时,更扁平的网络拓扑可以减少交换层级、资本成本和功耗。
- 通过 OCP 开放标准化,被定位为对齐 Microsoft、NVIDIA、Broadcom、AMD 和 Intel 等厂商的方式。
构建者启发
- 分析分布式系统时要看尾部延迟和同步停顿,而不只是总带宽。
- 当中央控制平面收敛会暂停整个工作负载时,优先考虑去中心化恢复路径。
- 基础设施和软件要一起设计;模型规模、集合通信、NIC 行为和交换机拓扑是耦合的。
- 尽可能使用开放标准,以降低供应商锁定并保留硬件供应链灵活性。
- 对大型集群来说,能效是模型容量的一部分:减少不必要的交换层级,可以把更多功率留给加速器。
待验证事项
- 高密度训练工作负载中 IPv6 Segment Routing 报头带来的有效带宽开销。
- 混合加速器、NIC、交换机和云提供商基础设施池中的真实行为。
- 数据包喷洒、数据包裁剪和快速重路由对端点硬件、驱动和固件的确切要求。
- 随着集群规模和网络直径增长,启动时静态路由表的运维限制。
- 许多链路或设备同时失效的相关故障场景中的行为。
