Workflow
大模型训练成本降低
icon
搜索文档
字节跳动,重大宣布!成本再降40%!
证券时报· 2025-03-10 20:43
大模型训练成本,再砍一刀! MoE是当前大模型的主流架构,最近大火的国产大模型DeepSeek采用的就是MoE架构。DeepSeek自研的 DeepSeekMoE作为一种创新的大规模语言模型架构,通过整合专家混合系统、改进的注意力机制和优化 的归一化策略,在模型效率与计算能力之间实现了新的平衡。 字节豆包大模型团队表示,MoE在分布式训练中存在大量跨设备通信开销,严重制约了大模型训练效率和 成本。针对这一难题,字节在内部研发了COMET计算-通信重叠技术,通过多项创新,大幅压缩了MoE专 家通信空转时间。 在此前的"开源周"活动中,DeepSeek也曾开源了团队为解决MoE通信瓶颈而采取的DualPipe+DeepEP方 案。不过,与之不同的是,COMET可以像插件一样直接接入已有的MoE训练框架,支持业界绝大部分主 流大模型,无需对训练框架进行侵入式改动,更加方便、灵活、通用。这一方法,还因其简洁性与通用性 而高分入选全球机器学习系统顶级会议 MLSys 2025,被认为"在大规模生产环境中极具应用潜力"。 不仅如此,由于在降低MoE通信开销上,COMET采用了计算-通信融合算子的优化方式,DeepSeek ...