Workflow
专家平衡自采样
icon
搜索文档
深度好文 | 聊聊 MoE 模型的量化
自动驾驶之心· 2025-07-26 21:30
MoE模型量化技术研究进展 - MoE模型面临高显存需求挑战 传统量化方法在4位/3位时会出现显著精度损失 主要由于稀疏动态计算模式和专家异常值问题[4] - 当前解决方案分为两类:GPU-CPU协同卸载方法和量化压缩技术 后者通过降低内存和计算需求成为主流方向[4] 核心量化方法 QMoE框架 - 针对1.6万亿参数SwitchTransformer-c2048模型 实现20倍压缩至160GB 每个参数占比小于1位[8] - 采用动态稀疏量化框架 专家层使用2bit三进制(-1,0,1) 非专家层保留bf16 结合90%自然稀疏性实现<1bit/参数[8][10] - 需定制CUDA kernel支持稀疏矩阵乘法 实现端到端压缩推理[10] MoQa方法 - 提出多阶段数据-模型分布感知量化 解决不同输入分布下专家重要性差异问题[12] - 构建联合数据分布 按专家重要性实施INT2/4/6/8混合精度量化[14][16] - 动态调整1%最敏感通道为fp16计算 平衡精度与开销[17] MxMoE方案 - 基于Roofline模型分析 对不同MoE块(Gate/Proj_Up/Proj_Down)实施差异化量化[18][21] - 高激活专家用W8A8 低激活专家用W4A16 配套开发专用GEMM算子提升吞吐量[21][22] 新兴优化技术 MoEQuant - 通过专家平衡自采样(EBSS)构建校准数据集 解决PTQ中专家激活不平衡问题[25][26] - 引入亲和度引导量化 将门控系数纳入逐层校准过程[27] EAQuant - 针对W3A4极端量化场景 构建统一通道级平滑向量抑制激活异常值[29][30] - 采用KL散度最小化专家选择分布差异 同步校准专家与非专家参数[30][31] MiLo补偿器 - 针对INT3量化 通过SVD分解残差矩阵获取低秩补偿矩阵[34][35] - 实测显示可有效恢复中等权重值的信息损失[35] 边缘计算优化 Fate系统 - 为边缘设备设计 结合跨层门控预测实现专家预取[36] - 分级存储策略:CPU MEM缓存用int4 运算阶段按专家受欢迎程度动态切换int2/int4[38] MoQAE创新 - 借用MoE门控机制 为长上下文选择最优KVCache量化位宽[39]