Workflow
LLaMA3
icon
搜索文档
开源扩散大模型首次跑赢自回归!上交大联手UCSD推出D2F,吞吐量达LLaMA3的2.5倍
机器之心· 2025-08-18 11:22
技术突破与性能表现 - 上海交通大学DENG Lab与加州大学圣地亚哥分校联合推出Discrete Diffusion Forcing(D2F)技术,首次使开源扩散大语言模型(dLLMs)的生成速度显著超过同等规模的自回归(AR)模型[2] - D2F模型在GSM8K等基准测试中实现相比LLaMA3等主流AR模型高达2.5倍的吞吐量提升[2][6] - 该技术为原始dLLMs带来最高达50倍的加速,同时保持平均性能不下降[4][22] 技术瓶颈与解决方案 - 现有dLLMs存在KV缓存不兼容性问题,导致无法直接应用AR模型的KV缓存加速技术,造成巨大计算冗余[8] - 块间解码存在串行限制,要求前一个块完全解码后才能处理下一个块,极大限制了并行潜力[8] - D2F通过块级因果注意力机制重塑双向注意力,使dLLMs兼容KV缓存,大幅减少冗余计算[12] - 采用自回归-扩散混合范式,协同设计模型架构、训练方法及推理策略[11] 核心技术创新 - 引入块级自回归生成架构,块间保持因果性,有效利用KV缓存[15] - 实现块内token间并行解码和块间并行解码,最大化并行生成潜力[15] - 设计双状态解码流水线(半激活状态和全激活状态),通过动态解码窗口最大化吞吐量[15][20][21] - 集成vLLM进一步优化推理速度[15] 训练方法优化 - 采用非对称蒸馏策略,将预训练dLLMs教师模型能力高效蒸馏到D2F学生模型[18] - 引入单调递增的结构化噪声调度,训练中序列靠前块施加较小噪声,靠后块施加更大噪声[18] - 该训练方式教会模型依据部分去噪的前文预测后文,解锁块间并行能力[18] 实测性能数据 - 在GSM8K测试中D2F-LLaDA实现52.5 TPS(7.3倍于基线)和2.8秒延迟(11.5倍加速)[23] - 在MBPP测试中D2F-LLaDA达到47.6 TPS(52.9倍于基线)和1.4秒延迟(51倍加速)[23] - 在HumanEval测试中D2F-LLaDA取得81.6 TPS(29.1倍于基线)和1.6秒延迟(24.3倍加速)[23] - D2F-Dream模型在GSM8K测试中实现91.2 TPS(9.6倍于基线)和2.8秒延迟(9.6倍加速)[24] 技术影响与未来展望 - D2F成功证明AR和Diffusion并非完全对立范式,通过混合框架设计可融合AR模型缓存优势与dLLMs并行优势[28] - 该技术为开源dLLMs社区注入新活力,展现dLLMs在推理速度上的巨大潜力[27] - 团队已开源代码和模型,旨在推动并行解码技术走向成熟和实际应用[27]