OpenAI公开大规模稳定训练的秘密,英伟达AMD英特尔都受益
36氪·2026-05-07 15:41

OpenAI MRC协议发布 - OpenAI通过开放计算项目开放了其超大规模AI训练网络协议MRC,该协议能实现微秒级故障恢复,支持超过10万块GPU的高效协作 [1] - MRC协议是OpenAI联合英伟达、AMD、英特尔、微软和博通,历时两年开发完成,现已应用于OpenAI所有最大规模的NVIDIA GB200超算上 [3] 协议开发的背景与动机 - 同步预训练的通信模式对网络极度敏感,在涉及十几万块GPU的训练中,单次迭代可触发数百万次点对点数据传输,任何链路拥塞或丢包都会严重影响整个训练任务 [4] - 随着AI训练集群规模的扩大,网络故障的绝对频率只会上升,对网络通信的稳定性提出了极高要求 [4] MRC协议的核心技术方案 - 采用多平面网络拓扑,将800Gb/s网卡拆分为8条100Gb/s子链路,连接到独立交换机,形成8个并行网络平面,使网络层数从三四层压缩到两层,大幅降低了13万块GPU的互联成本和故障点 [6] - 引入自适应包喷射技术,扩展了RoCE的乱序处理能力,允许单次传输的数据包喷射到数百条路径上并行传输,并能在微秒级完成拥塞检测和路径切换,几乎消除了网络核心拥塞 [7][8] - 使用SRv6静态源路由取代动态路由协议,将路径决策完全移至发送端,交换机无需感知拓扑变化,从根本上消除了因路由收敛引发的训练抖动 [9][10][11] 行业合作与影响 - MRC协议是OpenAI组织并联合英伟达、AMD、英特尔等主要硬件厂商共同制定的标准,旨在解决大规模AI训练中的网络通信稳定性问题 [2] - 该协议的开放有望推动全行业超大规模AI训练基础设施的标准化和效率提升 [3]

OpenAI公开大规模稳定训练的秘密,英伟达AMD英特尔都受益 - Reportify