Workflow
RL后训练步入超节点时代!华为黑科技榨干算力,一张卡干俩活
雷峰网·2025-06-05 17:17

大模型RL后训练技术突破 - 强化学习后训练(RL后训练)已成为突破大模型性能天花板的核心路径,当前消耗训练全流程20%算力,未来将升至50% [2][3][10] - RL后训练通过模型与外部环境动态交互,显著提升复杂任务推理效能,OpenAI o1、DeepSeek-R1等模型均依赖该技术 [3][8][9] - 传统RL后训练存在算力浪费问题,训练与推理需交替执行导致资源闲置,在千卡/万卡集群中形成"算力黑洞" [4][13] 华为RL Fusion训推共卡技术 - 实现单卡同时执行训练和推理任务,支持TP/DP/PP等多维并行策略动态切换,资源利用率与吞吐量翻倍 [19][20] - 针对MoE模型提出训推内存0冗余切换技术,通过分桶管理参数消除EP变化造成的冗余内存 [21][22] - 优化权重通信和内存加卸载,训推切换过程缩短至秒级,单超节点吞吐提升78.5% [25][26][52] StaleSync准异步并行技术 - 突破全同步限制,允许梯度在"陈旧度阈值"内并行执行,CloudMatrix 384超节点水平扩展效率超90% [29][30][32] - 引入准异步调度机制,当生成样本达阈值时立即触发下游计算,整体训练吞吐提升50% [37][38] - 配套开发DistQueue分布式数据队列,采用分层数据传输和零冗余通信技术,降低80%以上通信量 [41][43][48] 昇腾超节点实测性能 - RL Fusion+StaleSync协同实现35k token/s吞吐效率,较基线提升150%,4超节点扩展至127k token/s时线性度达91% [53][54][55] - 对比全同步方案,4超节点下StaleSync吞吐(127k)比同步方案(85k)提升49%,扩展线性度优势明显 [55] - 技术组合形成"资源复用+任务并行"双重保障,单节点速度提升2.5倍,支持百亿/千亿级模型高效训练 [57][58]