Workflow
Adaptive Packet Spraying
icon
搜索文档
OpenAI公开大规模稳定训练的秘密,英伟达AMD英特尔都受益
36氪· 2026-05-07 15:41
OpenAI,这次⼜真·Open了⼀下。 刚刚,OpenAI通过OCP开放了超⼤规模AI训练时使⽤的⽹络协议——MRC。 ⼤规模集群,也要通讯稳定 这套MRC(Multipath Reliable Connection)协议,是OpenAI联合英伟达、AMD、英特尔、微软和博通,花了两年时间做出来的, 上周通过Open Compute Project向全⾏业开放。 这次开放的MRC,是实现微秒级故障恢复、能⽀持10万块以上GPU⾼效协作的底层通信协议。 它现在跑在OpenAI所有最⼤规模的NVIDIA GB200超算上,包括OCI在德克萨斯Abilene建的星际之⻔和微软的Fairwater超算。 这件事的背景是,同步预训练(synchronous pretraining)的通信模式对⽹络极度敏感。 核⼼奥义就是,在⼤规模的训练环境下,确保⽹络通信的稳定性。 ⼗⼏万块GPU在每个训练step⾥以all-reduce为主要通信原语协同⼯作,单次迭代可触发数百万次点对点数据传输。 ⽽且这⼀波是和硬件⼚商合作,在OpenAI的组织下,英伟达、AMD和英特尔都参与了这个项⽬。 有⽹友表⽰,把这些⼚商聚在⼀起合作制定标 ...
OpenAI公开大规模稳定训练的秘密,英伟达AMD英特尔都受益
量子位· 2026-05-07 10:32
OpenAI,这次又真·Open了一下。 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 刚刚,OpenAI通过OCP开放了超大规模AI训练时使用的网络协议—— MRC 。 这次开放的MRC,是实现微秒级故障恢复、能支持10万块以上GPU高效协作的底层通信协议。 核心奥义就是, 在大规模的训练环境下,确保网络通信的稳定性 。 而且这一波是和硬件厂商合作,在OpenAI的组织下, 英伟达、AMD和英特尔都参与了这个项目 。 有网友表示,把这些厂商聚在一起合作制定标准,简直比实现AGI还难以协调。 大规模集群,也要通讯稳定 这套MRC(Multipath Reliable Connection)协议,是OpenAI联合英伟达、AMD、英特尔、微软和博通,花了两年时间做出来的,上周 通过Open Compute Project向全行业开放。 它现在跑在OpenAI所有最大规模的NVIDIA GB200超算上,包括OCI在德克萨斯Abilene建的星际之门和微软的Fairwater超算。 这件事的背景是, 同步预训练(synchronous pretraining)的通信模式对网络极度敏感 。 十几万块GPU ...