训练MoE足足提速70%!华为只用了3招
量子位·2025-06-03 14:21
训练效率不足 ,甚至 一半以上训练时间都浪费在"等待"上 。 现在,为了突破MoE的训练瓶颈,华为出手了: 构建了一套名为 Adaptive Pipe & EDPB 的优化方案,开启"上帝视角",让MoE面临"交通拥堵"的训练集群, 实现无等待流畅运行。 MoE大规模训练难题:一半以上的训练时间在等待? 实践已经表明,MoE模型训练集群的效率面临两方面挑战: 首先,是 专家并行引入了计算和通信等待 。 允中 发自 凹非寺 量子位 | 公众号 QbitAI Scaling Law之下,MoE(混合专家)如今已经成为各大模型厂商扩展模型能力的制胜法宝。 不过,在高效实现模型参数规模化的同时,MoE的 训练难题 也日益凸显: 当模型规模较大时,需要切分专家到不同设备形成并行(EP),这就引入额外All-to-All通信。 与此同时,MoE层绝大部分EP通信与计算存在时序依赖关系,一般的串行执行模式会导致大量计算单元空闲, 等待通信。 其次, 负载不均会引入计算和计算等待 。 MoE算法核心是"有能者居之",在训练过程中会出现部分热专家被频繁调用,而冷专家使用率较低的情况。 同时,真实训练数据的长度不一,不同的模型层 ...