OpenAI公开大规模稳定训练的秘密,英伟达AMD英特尔都受益
量子位·2026-05-07 10:32

文章核心观点 - OpenAI联合英伟达、AMD、英特尔、微软和博通等主要硬件厂商,通过开放计算项目发布了其超大规模AI训练网络协议MRC,旨在解决万卡以上GPU集群训练时的网络通信稳定性问题,提升训练效率并降低成本[2][6][8] 协议发布与背景 - OpenAI通过开放计算项目向全行业开放了其超大规模AI训练使用的网络协议MRC[2][8] - 该协议旨在实现微秒级故障恢复,支持10万块以上GPU的高效协作,核心是确保大规模训练环境下的网络通信稳定性[3][4] - 该协议是OpenAI联合英伟达、AMD、英特尔、微软和博通,花费两年时间共同开发的成果[8] - 目前该协议运行在OpenAI所有最大规模的NVIDIA GB200超算上,包括OCI在德克萨斯Abilene建的星际之门和微软的Fairwater超算[9] 技术问题与挑战 - 同步预训练的通信模式对网络极度敏感,十几万块GPU在每个训练步骤中以all-reduce为主要通信原语协同工作,单次迭代可触发数百万次点对点数据传输[10][11] - 集合通信的完成时间由最慢的传输决定,任何链路拥塞或丢包都会传导至整个任务,导致吞吐量骤降或触发检查点回滚[11] - 随着集群规模扩大,网络故障的绝对频率只会上升[12] MRC协议的技术解决方案 - 多平面网络拓扑:将800Gb/s网卡拆分为8条100Gb/s子链路,连接至独立的交换机,形成8个并行网络平面[17] - 此设计使单台交换机接入端口数扩大8倍,网络拓扑层数从三到四层压缩至两层,从而降低了13万块GPU的互联成本和故障点[18] - 扁平化拓扑减少了故障点,并行平面则大幅增加了冗余路径[19] - 自适应包喷射:扩展了RoCE的乱序处理能力,在数据包头部嵌入目标内存地址,允许接收端将乱序到达的包直接写入正确位置[23] - 该技术允许将单次传输的数据包喷射到数百条路径上并行传输,拥塞检测和路径切换在微秒级完成[23][24] - SRv6静态源路由:使用SRv6取代传统的BGP动态路由协议,将路径决策完全移至发送端[27] - 数据包携带完整的交换机标识符序列,沿途交换机只需按静态路由表转发,无需感知拓扑变化,从根本上消除了路由收敛引发的抖动[28][29] - 当路径故障时,发送端直接停止在该路径发包并切换路径,交换机侧无需任何动作[29]

OpenAI公开大规模稳定训练的秘密,英伟达AMD英特尔都受益 - Reportify