弹性AI预训练
搜索文档
谷歌Jeff Dean重磅论文:弹性大规模分布式预训练终于可行了
机器之心· 2026-04-25 10:56
文章核心观点 - 谷歌提出了一种名为“Decoupled DiLoCo”的革命性分布式AI预训练技术,旨在解决超大规模集群训练中因硬件故障频繁导致的效率低下问题 [1] - 该技术通过将训练集群拆分为独立运行的“学习器”和一个轻量级“同步器”,实现了异步、容错的训练,显著提升了有效计算利用率,并大幅降低了带宽需求 [12][14][25] - 这项研究标志着AI训练基础设施范式的转变,从追求强一致性转向“可用性优先”,为利用全球异构、临时算力资源进行超大规模模型训练铺平了道路 [31][32] 技术背景与现有问题 - 现代大语言模型训练普遍采用SPMD(单程序多数据)并行方式,要求所有硬件严格同步,任一节点故障都会导致整个训练流程暂停 [7] - 在超大规模集群中,硬件故障成为日常:假设单芯片年均故障一次,在一个240万芯片的集群中,平均故障间隔将缩短至不足一分钟 [8] - 现有弹性训练方案在重配置时会造成大量算力浪费:模拟显示,在240万芯片规模下,传统弹性数据并行方案的有效计算时间(Goodput)仅为**40%**,意味着**60%** 的时间被等待或重配置消耗 [8] Decoupled DiLoCo 核心技术框架 - **架构解耦**:将训练集群拆分为多个独立的“学习器”,每个学习器使用分配的数据独立训练,互不等待;一个学习器故障不影响其他学习器运行 [12] - **异步同步机制**:引入运行在稳定CPU资源上的“同步器”,周期性合并各学习器的参数更新;同步器无需等待所有学习器,只需达到“最小法定数”即可开始工作,故障节点可后续补上 [14][16] - **公平性与效率优化**: - 引入基于处理token数量的动态权重机制,确保计算速度不同的学习器在参数合并时贡献公平 [16] - 采用“自适应宽限窗口”,在达到最小法定数后稍作等待,以纳入更多学习器的更新,提升合并质量而不显著影响速度 [16] - 采用“平衡张量分片”技术,将模型参数切分为大小相近的碎片分批传输,避免带宽使用出现脉冲峰值,均匀通信压力 [18] 性能实验结果 - **有效计算利用率(Goodput)大幅提升**:在模拟**240万**芯片、年均单芯片故障一次的场景下,使用**8个**学习器时,Decoupled DiLoCo的Goodput达到**88%**,而传统弹性数据并行方案仅为**58%** [21] - **模型质量无损**:在训练一个**5B**参数模型至**1万亿**token的实验中,Decoupled DiLoCo在文本和视觉多项下游评测基准上的表现与传统数据并行训练结果几乎无差距 [23] - **卓越的异构硬件兼容性**:在混合TPUv5e与TPUv5p(性能差约**20%**)的场景下,系统仍能保持**100%** 的计算利用率,并产出与完全同步训练质量相当的模型 [25] - **带宽需求急剧降低**:为达到**90%** 计算利用率,在1秒计算步长、2个数据中心的场景下,传统方案需要约**104 Gbits/s**带宽,而Decoupled DiLoCo仅需**1.7 Gbits/s**,使用int4压缩后进一步降至**0.43 Gbits/s**,需求减少约两个数量级 [25] 潜在影响与行业意义 - **实现“捡漏”算力**:极低的带宽需求使得系统能够灵活利用分布在全球不同地区、不同时区、不同代际的临时可用算力资源,新学习器加入时可异步拉取模型状态,不影响其他单元训练 [27][28] - **推动训练范式转变**:随着预训练向跨地区集群扩展,在带宽和硬件可靠性双重受限的环境中,“可用性优先”的训练范式将从一种优势变为一种必要 [31] - **延续并实现了长期愿景**:该工作实现了Jeff Dean等人14年前在《Large Scale Distributed Deep Networks》论文中提出的,通过容忍不一致性来提升训练弹性的设想,如今在数百万芯片的工程规模下成为现实解决方案 [3][29][30]