微信炼出扩散语言模型，实现vLLM部署AR模型3倍加速，低熵场景超10倍

模型核心突破 - 腾讯微信AI团队提出WeDLM，首次在工业级推理引擎优化条件下，使扩散语言模型的推理速度超越同等自回归模型[2][4] - 核心创新在于通过标准因果注意力实现扩散解码，解决了传统扩散模型因双向注意力与KV缓存不兼容导致的速度瓶颈[4][10] - 在数学推理等任务上，相比vLLM部署的自回归模型实现3倍以上加速，在低熵场景下加速比可达10倍以上，同时保持甚至提升生成质量[2][27] 技术原理与设计 - 提出“前缀可缓存性”关键指标，指出并行生成的价值取决于token转化为可缓存前缀的速度，这是影响推理效率的核心[11][31] - 采用拓扑重排序技术，将已观测token移至序列前端并保留逻辑位置，使标准因果注意力下每个待预测位置都能访问完整上下文[16] - 设计双流掩码训练策略，构建干净的“记忆流”和带掩码的“预测流”，以缩小训练与推理的分布差异[18] - 推理时采用流式并行解码，结合距离惩罚、即时缓存和动态滑动窗口机制，最大化前缀提交率，避免块边界等待开销[21][23][32] 性能表现：生成质量 - 基础模型评测中，WeDLM-8B平均得分74.72，超越基准模型Qwen3-8B的72.61分达2.1个点[24] - 在数学推理任务上提升显著：GSM8K得分90.20，提升4.2个点；MATH得分53.60，提升2.8个点[24] - 指令微调模型评测中，WeDLM-8B-Instruct平均得分77.53，超越Qwen3-8B-Instruct的75.12分达2.4个点，并领先于其他扩散模型[25] 性能表现：推理速度 - 所有速度对比均基于vLLM部署的自回归模型基线，确保公平[26] - 在不同熵值场景下速度差异显著：低熵场景实测达到1673.3 tokens/s，中熵场景为745.2 tokens/s，高熵场景为197.8 tokens/s[27][31] - 具体任务加速比：数学推理为3-6倍，代码生成为2-3倍，序列计数等低熵任务可达10倍以上，开放式问答为1.5-2倍[27] 模型训练与部署 - 模型基于Qwen2.5-7B和Qwen3-8B进行训练，使用了100B token进行继续预训练和10B token进行监督微调[22] - 该因果扩散框架天然兼容现有推理基础设施，如KV缓存、FlashAttention、PagedAttention和CUDA Graphs等[32] - 模型权重和代码已开源，可通过GitHub和Hugging Face获取，安装与调用方式简便[14][29]