Workflow
RL后训练步入超节点时代!华为黑科技榨干算力,一张卡干俩活
21世纪经济报道·2025-06-05 19:03

RL后训练的重要性 - RL后训练已成为突破大模型性能天花板的核心路径,OpenAI o1、DeepSeek-R1等模型均依赖此技术提升推理效能 [1] - 相较于预训练的广撒网式知识获取,RL后训练通过动态交互直接塑造模型在复杂任务中的推理能力 [1] - 当前RL后训练消耗全流程20%算力,未来将飙升至50%,显著影响模型性能与成本 [1] 传统RL后训练的挑战 - 训练与推理需交替执行,导致算力闲置,资源利用率低下 [1][3] - 在千卡/万卡集群中,同步等待模式放大为算力黑洞,推高训练成本 [3] - 大规模集群中,MoE模型的多维并行策略组合使任务调度复杂度指数级增长,扩展效率下降 [4] 华为RL Fusion技术突破 - 实现训推共卡,单卡同时执行训练与推理,资源利用率翻倍,吞吐提升78.5% [1][4][22] - 支持TP/DP/PP等多维并行策略动态切换,小规模场景可进一步整合Reference及Reward模型资源 [4][5] - 针对MoE模型提出训推内存0冗余切换技术,通过分桶管理参数消除EP变化导致的冗余内存 [5][6] - 优化权重通信与内存加卸载,训推切换速度达秒级 [6][8] StaleSync准异步并行技术 - 容忍梯度陈旧性,允许不同RL阶段任务在阈值内并行执行,集群水平扩展效率超90% [8][10] - 引入准异步调度机制,长尾样本达到阈值即触发下一阶段计算,训练吞吐提升50% [14] - 分布式数据队列DistQueue采用分层数据传输与零冗余通信技术,负载降低至1/128,通信量减少80%以上 [16][19][20] 实测性能提升 - RL Fusion与StaleSync协同优化,单超节点吞吐提升78.5%,整体性能提升1.5倍 [22] - 集群规模从1节点扩展至4节点时,StaleSync吞吐从35k tokens/s增至127k tokens/s,线性度达91%,远超全同步方案的85% [24] - 昇腾超节点实现单节点速度提升2.5倍,集群扩展效率突破90%,为百亿/千亿级模型训练提供高效支持 [26]