NeurIPS 2025 Spotlight | 选择性知识蒸馏精准过滤:推测解码加速器AdaSPEC来了
机器之心·2025-11-06 11:28
研究背景与问题 - 大型语言模型自回归解码机制导致推理延迟高、计算开销大,成为部署瓶颈 [6] - 推测解码使用小草稿模型生成候选预测再由大目标模型验证,可加速推理但效果高度依赖两模型预测一致性 [8] - 传统知识蒸馏方法让草稿模型模仿目标模型输出分布,但草稿模型容量有限,难以完整吸收目标模型知识,在巨大尺寸差异下可能导致训练不收敛 [2][8] 解决方案:AdaSPEC方法 - 提出选择性知识蒸馏方法AdaSPEC,引入参考模型识别并过滤难以学习的token,使蒸馏聚焦于易学习部分 [3][9] - 采用双阶段训练框架,先通过参考模型初步蒸馏并过滤微调数据集,再在过滤后的子集上优化草稿模型 [11] - 该方法具备高模块化兼容性,可无缝结合EAGLE、vLLM等推测解码框架,核心实现不到百行代码 [12] 实验效果与性能提升 - 在多种模型组合(Pythia-31M/1.4B、CodeGen-350M/Phi-2)和任务(算术推理、指令跟随、代码生成、文本摘要)上系统评估 [3][14] - token接受率全线超越基线方法DistillSpec,在GSM8K任务上提升5–6%,在MBPP任务上最高提升15% [15][16] - 实际端到端推理速度提升显著,经vLLM框架测速加速可达10–20%,结合EAGLE框架微调后生成速度再提高7.5% [16] 总结与未来方向 - 该方法为推测解码提供了精准、高效、通用的加速新范式,通过选择性蒸馏实现动态对齐 [16] - 未来研究方向包括探索token难度的动态估计机制,以及将AdaSPEC应用于多模态与推理型大模型验证跨模态适配能力 [17]