Mixture of Experts (MoE)

搜索文档

自动驾驶之心· 2025-07-06 16:44

DeepSeek MoE技术演进 - 核心观点：DeepSeek在MoE架构上持续创新，从V1到V3版本通过细粒度专家分割、共享专家隔离、负载均衡优化等技术手段提升模型性能 [15][16][36] MoE基础架构 - MoE包含三部分：专家网络(前馈网络)、门控网络(计算专家权重)、选择器(TopK策略) [7] - Google提出的Transformer MoE层设计：用MoE替换FFN层，通过门控值加权多个专家输出 [5] - 负载均衡辅助损失解决专家间token分配不均问题，防止少数专家过载 [6][8] DeepSeek V1创新 - 细粒度专家分割：分割FFN隐藏维度增加专家数量，提升知识分解精度 [16] - 共享专家隔离：设置常激活专家捕获共同知识，减少其他专家冗余 [16] - 双层级负载均衡：专家级(公式12-14)和设备级(公式15-17)负载loss [19][23] DeepSeek V2升级 - 设备受限路由机制：限制每个token的激活专家分布在≤3台设备，降低通信成本 [28] - 通信负载均衡loss：公式29-31确保设备间输入输出负载均衡 [30][32] - Token丢弃策略：超过设备容量的低权重token跳过计算，通过残差传递 [33][34] DeepSeek V3改进 - 门控函数升级：用Sigmoid替代Softmax，解决高维度专家(256个)权重区分度问题 [36][38][39] - 精简辅助损失：通过动态bias替代多层级负载loss，减少对主模型干扰 [40][41] - 序列级均衡loss：公式17-19在单样本粒度平衡专家分配 [42][43] 技术演进总结 - V1：建立共享专家+细粒度专家框架，引入双层级负载均衡 [44] - V2：优化通信效率，新增设备路由限制和通信均衡机制 [44] - V3：门控函数革新，负载均衡策略简化，支持更大规模专家 [44]

Transformer

Artificial Intelligence

DeepSeekMoE（V1）

DeepSeek V2 MoE

DeepSeek V3 MoE

Mixture of Experts (MoE)

Transformer

Artificial Intelligence

DeepSeekMoE（V1）

DeepSeek V2 MoE

DeepSeek V3 MoE