模型核心突破 - 腾讯微信AI团队提出WeDLM,首次在工业级推理引擎优化条件下,使扩散语言模型的推理速度超越同等自回归模型[2][4] - 核心创新在于通过标准因果注意力实现扩散解码,解决了传统扩散模型因双向注意力与KV缓存不兼容导致的速度瓶颈[4][10] - 在数学推理等任务上,相比vLLM部署的自回归模型实现3倍以上加速,在低熵场景下加速比可达10倍以上,同时保持甚至提升生成质量[2][27] 技术原理与设计 - 提出“前缀可缓存性”关键指标,指出并行生成的价值取决于token转化为可缓存前缀的速度,这是影响推理效率的核心[11][31] - 采用拓扑重排序技术,将已观测token移至序列前端并保留逻辑位置,使标准因果注意力下每个待预测位置都能访问完整上下文[16] - 设计双流掩码训练策略,构建干净的“记忆流”和带掩码的“预测流”,以缩小训练与推理的分布差异[18] - 推理时采用流式并行解码,结合距离惩罚、即时缓存和动态滑动窗口机制,最大化前缀提交率,避免块边界等待开销[21][23][32] 性能表现:生成质量 - 基础模型评测中,WeDLM-8B平均得分74.72,超越基准模型Qwen3-8B的72.61分达2.1个点[24] - 在数学推理任务上提升显著:GSM8K得分90.20,提升4.2个点;MATH得分53.60,提升2.8个点[24] - 指令微调模型评测中,WeDLM-8B-Instruct平均得分77.53,超越Qwen3-8B-Instruct的75.12分达2.4个点,并领先于其他扩散模型[25] 性能表现:推理速度 - 所有速度对比均基于vLLM部署的自回归模型基线,确保公平[26] - 在不同熵值场景下速度差异显著:低熵场景实测达到1673.3 tokens/s,中熵场景为745.2 tokens/s,高熵场景为197.8 tokens/s[27][31] - 具体任务加速比:数学推理为3-6倍,代码生成为2-3倍,序列计数等低熵任务可达10倍以上,开放式问答为1.5-2倍[27] 模型训练与部署 - 模型基于Qwen2.5-7B和Qwen3-8B进行训练,使用了100B token进行继续预训练和10B token进行监督微调[22] - 该因果扩散框架天然兼容现有推理基础设施,如KV缓存、FlashAttention、PagedAttention和CUDA Graphs等[32] - 模型权重和代码已开源,可通过GitHub和Hugging Face获取,安装与调用方式简便[14][29]
微信炼出扩散语言模型,实现vLLM部署AR模型3倍加速,低熵场景超10倍