专家平衡自采样 - 财报，业绩电话会，研报，新闻

专家平衡自采样

搜索文档

自动驾驶之心· 2025-07-26 21:30

MoE模型量化技术研究进展 - MoE模型面临高显存需求挑战传统量化方法在4位/3位时会出现显著精度损失主要由于稀疏动态计算模式和专家异常值问题[4] - 当前解决方案分为两类：GPU-CPU协同卸载方法和量化压缩技术后者通过降低内存和计算需求成为主流方向[4] 核心量化方法 QMoE框架 - 针对1.6万亿参数SwitchTransformer-c2048模型实现20倍压缩至160GB 每个参数占比小于1位[8] - 采用动态稀疏量化框架专家层使用2bit三进制(-1,0,1) 非专家层保留bf16 结合90%自然稀疏性实现<1bit/参数[8][10] - 需定制CUDA kernel支持稀疏矩阵乘法实现端到端压缩推理[10] MoQa方法 - 提出多阶段数据-模型分布感知量化解决不同输入分布下专家重要性差异问题[12] - 构建联合数据分布按专家重要性实施INT2/4/6/8混合精度量化[14][16] - 动态调整1%最敏感通道为fp16计算平衡精度与开销[17] MxMoE方案 - 基于Roofline模型分析对不同MoE块(Gate/Proj_Up/Proj_Down)实施差异化量化[18][21] - 高激活专家用W8A8 低激活专家用W4A16 配套开发专用GEMM算子提升吞吐量[21][22] 新兴优化技术 MoEQuant - 通过专家平衡自采样(EBSS)构建校准数据集解决PTQ中专家激活不平衡问题[25][26] - 引入亲和度引导量化将门控系数纳入逐层校准过程[27] EAQuant - 针对W3A4极端量化场景构建统一通道级平滑向量抑制激活异常值[29][30] - 采用KL散度最小化专家选择分布差异同步校准专家与非专家参数[30][31] MiLo补偿器 - 针对INT3量化通过SVD分解残差矩阵获取低秩补偿矩阵[34][35] - 实测显示可有效恢复中等权重值的信息损失[35] 边缘计算优化 Fate系统 - 为边缘设备设计结合跨层门控预测实现专家预取[36] - 分级存储策略：CPU MEM缓存用int4 运算阶段按专家受欢迎程度动态切换int2/int4[38] MoQAE创新 - 借用MoE门控机制为长上下文选择最优KVCache量化位宽[39]