研究背景 - 大语言模型在复杂任务中应用广泛,但对计算和存储资源提出巨大挑战,特别是在长上下文场景中键值缓存成为存储瓶颈 [2] - 半精度LLaMA-2-7B模型权重约14GB,在上下文长度128K时键值缓存占据64GB,总和接近NVIDIA A100的80GB显存容量上限 [2] - 键值量化受异常值干扰导致模型性能显著下降,现有量化方案无法有效解决异常值问题 [2][5] 技术方案 - 提出MILLION方案,基于乘积量化的键值缓存压缩和推理加速设计 [2] - 采用非均匀量化通过聚类实现量化区间不等长,更合理分配编码提升量化效率 [12] - 将高维向量空间分解为多个低维子空间进行独立向量量化,有效利用通道间互信息 [14] - 子空间维度为2或4是较好的平衡点,融合通道量化效果优于独立通道量化 [14] 系统实现 - 采用三阶段推理系统设计:离线训练、在线预填充、在线解码 [17] - 在线解码阶段采用分块注意力机制,分开计算历史注意力和自注意力 [18] - 使用宽数据向量化加载方式将多个乘积量化编码打包为宽数据,提高带宽利用率 [20] - 优化表查找阶段的空间局部性,提高L2缓存命中率 [20] 实验结果 - 在困惑度指标上,MILLION与处理异常值的SOTA方案输出质量保持一致 [25] - 在长对话问答任务中,MILLION在4倍键值缓存压缩效率下保持几乎无损表现 [26] - 在32K上下文场景下实现4倍键值缓存压缩比和2倍端到端加速比 [28][30] - 注意力层剖析显示MILLION在访存和内核函数方面对比baseline有显著优势 [30] 创新贡献 - 深入分析键值缓存分布特征和异常值问题 [32] - 提出基于乘积量化的非均匀量化算法 [32] - 设计高效的推理系统及内核实现 [32] - 在32K上下文场景中同时达成4倍压缩率和2倍加速比 [32]
上交大等探索键值压缩的边界:MILLION开源框架定义模型量化推理新范式,入选顶会DAC 2025
机器之心·2025-04-29 07:04