扩散语言模型(dLLM)
搜索文档
从训练到推理的「瘦身」演进:首篇高效扩散语言模型(dLLM)深度综述
机器之心· 2026-03-09 17:48
文章核心观点 - 扩散语言模型(dLLM)作为一种非自回归范式,通过迭代去噪优化文本序列,具备双向上下文建模和并行更新多个Token的潜力,有望在生成速度与可控性上超越自回归(AR)模型[2] - 然而,dLLM在实际落地前面临训练成本高、推理步骤繁琐、KV Cache难以复用等关键效率瓶颈[3] - 一篇由自动化所、香港中文大学与香港大学等机构撰写的综述论文系统梳理了高效dLLM的研究进展,从训练、推理、上下文及系统框架等维度拆解了其跨越效率瓶颈的技术路径[3] - 随着KV Cache管理、并行解码等技术的成熟,dLLM正从学术探索走向工业应用,未来有望在高质量、高可控性生成场景中成为AR模型强有力的竞争者或互补者[25] 一、训练效率 - dLLM若从头训练,数据需求大且算力消耗惊人,因此“借力”现有预训练模型成为关键[7] - 训练侧提效策略主要归纳为“从AR到dLLM的迁移”与“架构优化”[8] - 迁移策略包括利用AR模型权重,通过调整注意力掩码或引入过渡微调阶段,将AR模型能力“蒸馏”或“转换”至扩散模型,如DiffuLLaMA和Dream等工作[9] - 块扩散(Block Diffusion)是一种折中方案,保留块间的自回归串行结构,但在块内部进行并行扩散,在保留AR预训练优势的同时显著降低适应成本[9] - 架构优化方面,E2D2采用编码器-解码器架构,让编码器处理清晰输入,解码器专注去噪,从而复用特征并降低训练成本[9] - MoE(混合专家)架构也被引入dLLM(如LLaDA-MoE),通过稀疏激活在保持模型容量的同时减少推理时的参数计算量[9] 二、推理加速 - 推理速度是dLLM能否落地的核心痛点,其多步迭代特性可能导致无法接受的延迟[11] - 推理加速主要分为“并行解码”和“压缩技术”两大类[11] - 并行解码是dLLM的核心优势,可以一次性更新多个Token[14] - 压缩技术方面,量化是重要手段,但dLLM对异常值和时间步高度敏感[14] - QDLM和Quant-dLLM等工作针对扩散过程的激活分布特点,设计了细粒度的量化方案,甚至实现了2-bit的极低比特量化[14] 三、KV Cache管理 - dLLM与AR模型在KV Cache管理上存在根本差异:在dLLM中,整个序列在每一步去噪中都在变化,双向注意力机制导致所有Token互相依赖,使得标准的KV Cache失效[16] - 应对策略包括架构范式调整、自适应刷新、稀疏化与驱逐等[18][20] - 架构范式调整采用Block Diffusion或DualCache设计,将序列分为“固定的前缀”和“动态的后缀”,只对变化部分进行重计算[18] - 自适应刷新策略利用Token的稳定性,若某Token特征在两步间变化很小(基于相似度阈值),则直接复用上一轮Cache,否则才更新,代表工作有dKV-Cache和d²Cache[18] - 稀疏化与驱逐策略通过注意力显著性判断哪些Token对当前生成最关键,动态驱逐不重要的KV对,从而在有限显存下支持更长的序列[20] 四、投机解码 - 投机解码在dLLM中呈现两种独特形态:dLLM-only自我投机与dLLM-AR协同[22] - dLLM-only自我投机指模型自己预测未来的中间状态,或利用“Jump-Share”机制在迭代中跳过某些去噪步骤并共享计算结果[26] - dLLM-AR协同结合AR和dLLM的长处,一种思路是用小AR模型辅助dLLM判断采样联合概率;另一种是用dLLM快速生成草稿,再由大参数的AR模型进行验证,这种“Diffusion-as-Drafter”模式正成为提升AR模型整体吞吐量的新热点[26] 五、总结与展望 - 除了算法优化,论文还探讨了上下文扩展和系统框架,目前如SGLang等主流推理引擎已开始初步支持dLLM,但其生态系统相比vLLM对AR模型的极致优化仍处于“基建”阶段[23] - 未来方向之一是建立统一的评测标准,目前效率对比基于不同假设,急需建立涵盖训练成本、显存占用、端到端延迟的统一Benchmark[24] - 未来方向之二是硬件感知的内核优化,目前加速多停留在算法层,缺乏类似FlashAttention的底层CUDA Kernel优化,限制了理论加速比向实际墙钟时间的转化[24] - 未来方向之三是多模态融合,dLLM天然适合多模态任务,如何在多模态场景下实现统一的高效推理将是下一个爆发点[25]
里程碑时刻,首个100B扩散语言模型来了,技术报告揭秘背后细节
36氪· 2025-12-12 15:57
行业技术范式演进 - 扩散语言模型已成功扩展至千亿参数规模,由蚂蚁集团与多所大学组成的联合团队发布的LLaDA2.0-flash模型参数量高达100B,这是该领域前所未有的规模[1] - 长期以来,自回归生成范式占据主导,但其存在长文本生成计算成本高、推理速度慢、难以修正前期错误导致误差累积等固有弊端[7] - dLLM的成功扩展证明了自回归范式之外的另一条技术路径的可行性,其演进呈现“多线并进”的特点,包括从头训练和从成熟AR模型迁移等不同路线[9] 模型性能表现 - 在涵盖知识、推理、编码、数学、智能体与对齐的47个基准测试中,100B参数的LLaDA2.0-flash平均得分73.18,与强自回归模型Qwen3-30B-A3B-Instruct-2507的73.60分基本持平[4] - LLaDA2.0-flash在编码和智能体等复杂任务上优势显著,例如在HumanEval测试中得分94.51,在MBPP测试中得分88.29,在BFCL v3智能体测试中得分75.43[4][35][37] - 16B参数的LLaDA2.0-mini综合得分64.34,接近同级别AR模型Ling-mini-2.0的65.77分,并在SQuAD 2.0阅读理解和HumanEval代码生成等任务上超过对标模型Qwen3-8B[34] 技术实现路径与创新 - 将dLLM“做大做强”是公认难题,此前方法包括从头训练、从预训练AR模型迁移以及后训练阶段努力,但规模多限制在30B以下或面临训练效率等挑战[15][16] - LLaDA2.0没有选择从头训练,而是提出一套系统性解决方案,将已有AR模型平滑地转化为扩散模型,其核心是构建分段式、可扩展的训练体系[18] - 该训练体系首先通过持续预训练将AR基座模型重建为掩码扩散语言模型,然后引入块扩散预训练以增强长程一致性和计算效率,最后通过后训练对齐人类意图[18][19] - 持续预训练采用Warmup–Stable–Decay策略,逐步调整块大小(从1到4096再衰减至适合推理的尺寸如32),并引入文档级注意力掩码和Top-k检查点融合以保障训练稳定性和模型稳健性[22][23] 后训练与工程优化 - 后训练包括三个核心环节:监督微调、置信度感知并行训练和直接偏好对齐,通过协同优化实现能力塑造、推理效率提升与人类偏好对齐[25][26] - 在工程基础设施上,预训练阶段结合多种并行策略,并为块扩散训练引入基于cuDNN的注意力实现,在训练LLaDA2.0-mini时实现了1.3倍以上的端到端加速和90%以上的注意力层显存节省[27] - 推理阶段对框架进行改造以支持块扩散,并优化KV-cache复用,LLaDA2.0-flash-CAP在多项基准测试中达到535 TPS,相较于基线AR模型实现最高2.1倍的推理加速[31] 行业影响与未来展望 - LLaDA2.0系列模型的出现为扩散语言模型领域注入了强心剂,其“将成熟AR大模型平滑过渡到扩散框架”的思路表明不同生成范式可以串联、融合与相互继承[39] - 该模型的成功表明扩散语言模型是一条可扩展且有竞争力的技术路线,在通用基准上快速缩小与AR模型的差距,并在代码生成、工具使用等复杂任务上展现出超越潜力[38] - 行业内有越来越多的玩家正在入场,包括科技巨头,尽管dLLM在更大规模、更高效强化学习与推理范式等方面仍有难题待攻克,但技术方向已经明确[40][42]
里程碑时刻!首个100B扩散语言模型来了,技术报告揭秘背后细节
机器之心· 2025-12-12 12:31
扩散语言模型(dLLM)的技术突破与规模化 - 蚂蚁集团与人大、浙大、西湖大学联合团队推出了千亿参数规模的扩散语言模型LLaDA2.0-flash,总参数量高达100B,这是该领域前所未有的规模[1] - 该系列模型采用MoE架构,包含16B参数的LLaDA2.0-mini和100B参数的LLaDA2.0-flash两个版本[1] 模型性能表现 - LLaDA2.0-flash在涵盖知识、推理、编码、数学、智能体与对齐的47个基准测试中平均得分73.18,与强自回归模型Qwen3-30B-A3B-Instruct-2507的73.60分基本持平[5] - 在编码和智能体等复杂任务上优势显著,例如在HumanEval、MBPP、BFCL等任务上表现突出[5] - LLaDA2.0-mini综合得分64.34,接近同级别自回归模型Ling-mini-2.0的65.77分,并在SQuAD 2.0阅读理解和HumanEval代码生成等任务上超越了Qwen3-8B[37] - LLaDA2.0-flash在编码任务上展现出更明显优势:HumanEval得分94.51,MBPP得分88.29,MultiPL-E得分74.87,均高于自回归对手,其Agent能力(BFCL v3)得分也达到75.43[39] 自回归模型的固有弊端与扩散模型的优势 - 自回归生成范式存在长文本生成计算成本高、推理速度慢、难以捕捉token间双向依赖关系等固有弊端[7] - 一旦前期生成内容出错无法直接修正,会导致误差累积[7] - 扩散语言模型支持在多个位置并行生成,且已生成内容可以修改[11] dLLM规模化发展的技术路径 - 行业探索了三种主要路径:从头开始训练、从训练好的AR模型迁移继承、后训练阶段的努力[16][17] - 从头训练的dLLM受限于数据量、基础设施和成本,规模通常较小(≤8B),性能仍落后于先进AR模型[16] - 从AR模型迁移的方法(如DiffusionLLaMA、Dream-7B等)此前也未突破30B规模,且训练效率不高[17] - LLaDA2.0选择了将已有AR模型“平滑地”转化成扩散模型的路径,并在此基础上进行大规模训练与对齐[20] LLaDA2.0的核心技术方案 - 构建了分段式、可扩展的训练体系:首先通过持续预训练将AR基座模型重建为掩码扩散语言模型;接着引入块扩散预训练,增强生成长程一致性和计算效率;最后通过后训练使模型具备更强的人类意图与指令遵从特性[21] - 采用了Warmup–Stable–Decay的持续预训练策略,逐步调整块大小(从1到4096再降至适合推理的尺寸如32),完成从因果生成向全局双向去噪的结构性迁移[25][26] - 引入了文档级注意力掩码,避免跨文档语义污染,确保双向建模稳定性[27] - 采用了Top-k检查点融合策略,选取最优检查点进行参数平均,得到更稳健的模型初始化[27] 后训练技术的创新 - 监督微调阶段引入了块对齐、Mask ratio bandwidth、Complementary Masking等关键改进,提升了训练效率和样本利用率[29] - 采用了置信度感知并行训练,通过添加置信度损失提升模型预测置信度,实现更快并行解码[29] - 构建了包含150万对偏好样本的数据集,并将重构损失的证据下界作为对数似然替代,构建出适配扩散模型的直接偏好对齐框架[30] 训练与推理基础设施优化 - 预训练阶段结合了数据并行、流水线并行、张量并行、上下文并行与专家并行的多并行策略,保持千亿级模型的高吞吐与强扩展性[31] - 通过基于cuDNN的注意力实现,为块扩散训练带来显著加速,训练LLaDA2.0-mini时实现了1.3倍以上的端到端加速以及90%以上的注意力层显存节省[31] - 推理阶段,LLaDA2.0-flash-CAP达到了535 TPS,相较于基线AR模型实现最高2.1倍推理加速[34] 行业意义与未来展望 - LLaDA2.0的成功表明扩散语言模型是一条可扩展且有竞争力的技术路线,在通用基准上快速缩小了与AR模型的差距,并在复杂任务上展现出超越潜力[41] - 其“将成熟AR大模型平滑过渡到扩散框架”的思路为扩散语言模型的规模化探索提供了切实可行的工程路径,打开了更广阔的设计空间[43] - 越来越多的玩家正在入场,包括科技巨头xAI[44] - 尽管在更大参数规模、更高效强化学习与推理范式等方面仍有难题待攻克,但技术方向已经明确[46]