Workflow
RL Fusion训推共卡技术
icon
搜索文档
一张卡干俩活,华为要把算力榨干
虎嗅APP· 2025-06-05 22:24
华为MoE架构优化 - 华为提出MoGE架构,克服了传统MoE模型负载不均衡及效率瓶颈问题,实现降本增效并便于训练和部署 [1] - 中国科技企业对MoE架构进行优化重组,展现后发优势,推动大模型技术向更普适和高效的方向发展 [1] RL后训练的重要性 - RL后训练已成为突破大模型性能天花板的核心路径,OpenAI o1和DeepSeek-R1等模型均依赖该技术 [3] - RL后训练通过动态交互直接塑造大模型在复杂任务中的推理效能,当前占训练全流程20%算力,未来将升至50% [3] - 该技术在提升模型精度、泛化性和用户体验方面发挥不可替代作用 [5] RL后训练的挑战 - On-Policy算法导致训练与推理严格交替,资源利用率低下,形成"算力黑洞" [6][7] - 大规模集群中多模型异构并行策略组合使任务调度复杂度指数级增长,扩展效率显著下降 [8] 华为RL Fusion技术 - RL Fusion实现一卡同时执行训练和推理任务,资源利用率和吞吐翻倍 [9][10] - 支持训推共卡、全共卡等多种部署模式,并实现多维并行策略动态无缝切换 [10] - 针对MoE模型提出训推内存0冗余切换技术,消除EP变化造成的冗余内存 [11][12] - 优化后训推切换过程达到秒级,使集群利用率倍增并大幅降低成本 [15] 华为StaleSync技术 - StaleSync采用准异步机制,容忍梯度"陈旧性",使CloudMatrix 384超节点水平扩展效率超90% [16][17] - 该技术结合共置和分离架构优势,平衡不同RL计算任务的资源需求 [20] - 引入准异步调度机制,在保证精度前提下使系统整体训练吞吐量提升50% [23] 分布式数据队列DistQueue - DistQueue实现不同计算任务间数据的拆分、缓存与动态读取 [24] - 采用分层数据传输与零冗余通信技术,在Pangu 718B-MoE案例中将负载降低为1/128 [25] - 零冗余通信技术避免Padding带来的额外通信,实测降低80%以上通信量 [26] 实测性能表现 - RL Fusion使单个超节点吞吐提升78.5%,结合StaleSync实现35k token/s吞吐效率,整体性能提升1.5倍 [30] - 集群规模从1个扩展至4个超节点时,StaleSync吞吐从35k tokens/s提升至127k tokens/s,扩展线性度达91% [31][32] 技术影响 - 华为RL Fusion和StaleSync技术攻克算力浪费和集群扩展瓶颈,形成高效、高扩展、高通用性的集群调度方案 [33] - 该技术为百亿、千亿级大模型后训练提供强劲动力,推动下一代AI效率革命 [33]
RL后训练步入超节点时代!华为黑科技榨干算力,一张卡干俩活
21世纪经济报道· 2025-06-05 19:03
RL后训练的重要性 - RL后训练已成为突破大模型性能天花板的核心路径,OpenAI o1、DeepSeek-R1等模型均依赖此技术提升推理效能 [1] - 相较于预训练的广撒网式知识获取,RL后训练通过动态交互直接塑造模型在复杂任务中的推理能力 [1] - 当前RL后训练消耗全流程20%算力,未来将飙升至50%,显著影响模型性能与成本 [1] 传统RL后训练的挑战 - 训练与推理需交替执行,导致算力闲置,资源利用率低下 [1][3] - 在千卡/万卡集群中,同步等待模式放大为算力黑洞,推高训练成本 [3] - 大规模集群中,MoE模型的多维并行策略组合使任务调度复杂度指数级增长,扩展效率下降 [4] 华为RL Fusion技术突破 - 实现训推共卡,单卡同时执行训练与推理,资源利用率翻倍,吞吐提升78.5% [1][4][22] - 支持TP/DP/PP等多维并行策略动态切换,小规模场景可进一步整合Reference及Reward模型资源 [4][5] - 针对MoE模型提出训推内存0冗余切换技术,通过分桶管理参数消除EP变化导致的冗余内存 [5][6] - 优化权重通信与内存加卸载,训推切换速度达秒级 [6][8] StaleSync准异步并行技术 - 容忍梯度陈旧性,允许不同RL阶段任务在阈值内并行执行,集群水平扩展效率超90% [8][10] - 引入准异步调度机制,长尾样本达到阈值即触发下一阶段计算,训练吞吐提升50% [14] - 分布式数据队列DistQueue采用分层数据传输与零冗余通信技术,负载降低至1/128,通信量减少80%以上 [16][19][20] 实测性能提升 - RL Fusion与StaleSync协同优化,单超节点吞吐提升78.5%,整体性能提升1.5倍 [22] - 集群规模从1节点扩展至4节点时,StaleSync吞吐从35k tokens/s增至127k tokens/s,线性度达91%,远超全同步方案的85% [24] - 昇腾超节点实现单节点速度提升2.5倍,集群扩展效率突破90%,为百亿/千亿级模型训练提供高效支持 [26]
RL后训练步入超节点时代!华为黑科技榨干算力,一张卡干俩活
雷峰网· 2025-06-05 17:17
大模型RL后训练技术突破 - 强化学习后训练(RL后训练)已成为突破大模型性能天花板的核心路径,当前消耗训练全流程20%算力,未来将升至50% [2][3][10] - RL后训练通过模型与外部环境动态交互,显著提升复杂任务推理效能,OpenAI o1、DeepSeek-R1等模型均依赖该技术 [3][8][9] - 传统RL后训练存在算力浪费问题,训练与推理需交替执行导致资源闲置,在千卡/万卡集群中形成"算力黑洞" [4][13] 华为RL Fusion训推共卡技术 - 实现单卡同时执行训练和推理任务,支持TP/DP/PP等多维并行策略动态切换,资源利用率与吞吐量翻倍 [19][20] - 针对MoE模型提出训推内存0冗余切换技术,通过分桶管理参数消除EP变化造成的冗余内存 [21][22] - 优化权重通信和内存加卸载,训推切换过程缩短至秒级,单超节点吞吐提升78.5% [25][26][52] StaleSync准异步并行技术 - 突破全同步限制,允许梯度在"陈旧度阈值"内并行执行,CloudMatrix 384超节点水平扩展效率超90% [29][30][32] - 引入准异步调度机制,当生成样本达阈值时立即触发下游计算,整体训练吞吐提升50% [37][38] - 配套开发DistQueue分布式数据队列,采用分层数据传输和零冗余通信技术,降低80%以上通信量 [41][43][48] 昇腾超节点实测性能 - RL Fusion+StaleSync协同实现35k token/s吞吐效率,较基线提升150%,4超节点扩展至127k token/s时线性度达91% [53][54][55] - 对比全同步方案,4超节点下StaleSync吞吐(127k)比同步方案(85k)提升49%,扩展线性度优势明显 [55] - 技术组合形成"资源复用+任务并行"双重保障,单节点速度提升2.5倍,支持百亿/千亿级模型高效训练 [57][58]