核心观点 - 上海交通大学EPIC Lab团队提出了一种无需训练、即插即用的高效推理缓存机制dLLM-Cache,用于加速扩散式大语言模型(dLLMs)的推理过程 [2] - dLLM-Cache通过复用相邻时间步上变化较小的特征,仅更新变化较大的特征,实现了计算量的大幅降低,同时保持原有的生成质量 [2] - 该方法在主流dLLM架构上实现了最高9.1倍的推理速度提升,且不损失模型输出质量 [3] 研究动机 - 扩散式大语言模型(dLLMs)在语言生成领域展现出与自回归模型(ARMs)不同的建模能力,在"逆转诅咒"、数学推理等任务上表现领先 [8] - dLLMs推理过程中需要执行数百步的去噪迭代,每一步都需重新计算所有层的特征,导致推理效率低下 [8] - 传统的KV Cache加速方法不兼容dLLMs的双向注意力架构,无法使用 [10] 方法原理 - 研究发现prompt部分的Transformer中间层特征长期稳定,而response部分仅少量tokens特征变化较大,为缓存复用提供了理论基础 [4] - 提出V-verify机制,通过Value向量变化识别需要更新的tokens,摒弃了高达75%的冗余计算 [4] - 采用长间隔Prompt缓存(每100步更新)和短间隔Response缓存(每8步更新)相结合的策略 [19][20] 技术亮点 - 训练无关,即插即用,无需修改模型参数或重训练 [3] - 通用于LLaDA、Dream等主流dLLM架构及多模态模型 [4] - 独创V-verify机制作为特征变化的低成本"指示器",皮尔逊相关系数最高达0.944 [16][17] 实验结果 - 在LLaDA 8B模型上实现了5倍以上的加速效果,HotpotQA任务达到9.1倍无损加速 [21] - 在Dream 7B模型上也验证了方法的通用性,GSM8K任务实现5.1倍加速 [25][26] - 使用dLLM-Cache后,LLaDA 8B的推理速度首次超过LLaMA3 8B,同时保持准确率优势 [28] 性能数据 - LLaDA Base在GSM8K任务上从7.32 TPS提升至31.43 TPS,加速4.29倍 [23] - LLaDA Instruct在GPQA任务上从5.33 TPS提升至28.01 TPS,加速5.26倍 [23] - Dream Base在GSM8K任务上从6.36 TPS提升至32.44 TPS,加速5.1倍 [26]
扩散语言模型九倍推理加速!上海交大:KV Cache并非自回归模型的专属技巧
量子位·2025-05-27 11:53