并行解码 - 财报，业绩电话会，研报，新闻

并行解码

搜索文档

机器之心· 2026-03-09 17:48

文章核心观点 - 扩散语言模型（dLLM）作为一种非自回归范式，通过迭代去噪优化文本序列，具备双向上下文建模和并行更新多个Token的潜力，有望在生成速度与可控性上超越自回归（AR）模型[2] - 然而，dLLM在实际落地前面临训练成本高、推理步骤繁琐、KV Cache难以复用等关键效率瓶颈[3] - 一篇由自动化所、香港中文大学与香港大学等机构撰写的综述论文系统梳理了高效dLLM的研究进展，从训练、推理、上下文及系统框架等维度拆解了其跨越效率瓶颈的技术路径[3] - 随着KV Cache管理、并行解码等技术的成熟，dLLM正从学术探索走向工业应用，未来有望在高质量、高可控性生成场景中成为AR模型强有力的竞争者或互补者[25] 一、训练效率 - dLLM若从头训练，数据需求大且算力消耗惊人，因此“借力”现有预训练模型成为关键[7] - 训练侧提效策略主要归纳为“从AR到dLLM的迁移”与“架构优化”[8] - 迁移策略包括利用AR模型权重，通过调整注意力掩码或引入过渡微调阶段，将AR模型能力“蒸馏”或“转换”至扩散模型，如DiffuLLaMA和Dream等工作[9] - 块扩散（Block Diffusion）是一种折中方案，保留块间的自回归串行结构，但在块内部进行并行扩散，在保留AR预训练优势的同时显著降低适应成本[9] - 架构优化方面，E2D2采用编码器-解码器架构，让编码器处理清晰输入，解码器专注去噪，从而复用特征并降低训练成本[9] - MoE（混合专家）架构也被引入dLLM（如LLaDA-MoE），通过稀疏激活在保持模型容量的同时减少推理时的参数计算量[9] 二、推理加速 - 推理速度是dLLM能否落地的核心痛点，其多步迭代特性可能导致无法接受的延迟[11] - 推理加速主要分为“并行解码”和“压缩技术”两大类[11] - 并行解码是dLLM的核心优势，可以一次性更新多个Token[14] - 压缩技术方面，量化是重要手段，但dLLM对异常值和时间步高度敏感[14] - QDLM和Quant-dLLM等工作针对扩散过程的激活分布特点，设计了细粒度的量化方案，甚至实现了2-bit的极低比特量化[14] 三、KV Cache管理 - dLLM与AR模型在KV Cache管理上存在根本差异：在dLLM中，整个序列在每一步去噪中都在变化，双向注意力机制导致所有Token互相依赖，使得标准的KV Cache失效[16] - 应对策略包括架构范式调整、自适应刷新、稀疏化与驱逐等[18][20] - 架构范式调整采用Block Diffusion或DualCache设计，将序列分为“固定的前缀”和“动态的后缀”，只对变化部分进行重计算[18] - 自适应刷新策略利用Token的稳定性，若某Token特征在两步间变化很小（基于相似度阈值），则直接复用上一轮Cache，否则才更新，代表工作有dKV-Cache和d²Cache[18] - 稀疏化与驱逐策略通过注意力显著性判断哪些Token对当前生成最关键，动态驱逐不重要的KV对，从而在有限显存下支持更长的序列[20] 四、投机解码 - 投机解码在dLLM中呈现两种独特形态：dLLM-only自我投机与dLLM-AR协同[22] - dLLM-only自我投机指模型自己预测未来的中间状态，或利用“Jump-Share”机制在迭代中跳过某些去噪步骤并共享计算结果[26] - dLLM-AR协同结合AR和dLLM的长处，一种思路是用小AR模型辅助dLLM判断采样联合概率；另一种是用dLLM快速生成草稿，再由大参数的AR模型进行验证，这种“Diffusion-as-Drafter”模式正成为提升AR模型整体吞吐量的新热点[26] 五、总结与展望 - 除了算法优化，论文还探讨了上下文扩展和系统框架，目前如SGLang等主流推理引擎已开始初步支持dLLM，但其生态系统相比vLLM对AR模型的极致优化仍处于“基建”阶段[23] - 未来方向之一是建立统一的评测标准，目前效率对比基于不同假设，急需建立涵盖训练成本、显存占用、端到端延迟的统一Benchmark[24] - 未来方向之二是硬件感知的内核优化，目前加速多停留在算法层，缺乏类似FlashAttention的底层CUDA Kernel优化，限制了理论加速比向实际墙钟时间的转化[24] - 未来方向之三是多模态融合，dLLM天然适合多模态任务，如何在多模态场景下实现统一的高效推理将是下一个爆发点[25]