扩散型 LLM（dLLMs） - 财报，业绩电话会，研报，新闻

扩散型 LLM（dLLMs）

搜索文档

自回归因果注意力也能并行解码？上交联合UCSD突破LLM推理瓶颈，模型代码全开源

机器之心· 2025-12-30 14:57

文章核心观点 - 由UCSD Hao AI Lab和上海交大Deng Lab团队提出的Jacobi Forcing技术，是一种突破性的解决方案，能够将标准自回归（AR）模型转化为原生因果并行解码器，在保持接近AR模型生成质量的同时，显著提升推理速度，为LLM高效推理开辟了新路径 [5] 技术方案核心优势 - Jacobi Forcing的核心创新在于打破了“低代价、高速度、高质量”的不可能三角，其优势体现在三大维度 [7] - 优势一：原生因果架构，部署与训练成本低。该技术保留了AR模型的因果注意力结构，完美适配现有KV缓存复用机制和AR优化内核，可作为现有AR模型的“即插即用”替代方案，极大降低部署与训练成本 [7] - 优势二：高效并行解码，速度提升显著。通过渐进蒸馏训练，模型能在每轮前向传播中并行更新多个token，结合多块并行解码和拒绝回收策略，在编码任务中实现181.8 TPS的生成速度，远超AR基线的39.8 TPS [10] - 优势三：质量损失极小，任务表现优异。通过渐进式一致性蒸馏损失和AR损失的联合优化，模型在噪声环境下仍能生成贴近AR分布的高质量结果。在HumanEval编码基准中，以83.5%的准确率实现4倍提速；在GSM8K数学任务中，91.4%的解题率接近AR基线，速度提升3.7倍 [11] 技术路线详解 - Jacobi Forcing以因果并行解码为核心目标，基于Jacobi解码框架进行深度优化，通过训练机制创新与推理策略升级的全链路设计，在保留AR模型因果骨干与KV缓存兼容性的同时，实现高效并行解码 [14] - 技术基础：基于Jacobi解码的因果并行框架。Jacobi解码是一种因果并行解码过程，对一个块内的所有token进行并行迭代更新，直到所有token与贪心AR输出完全匹配，形成“并行精炼轨迹” [15] - 训练阶段优化：采用噪声感知的渐进式学习。利用AR模型执行Jacobi解码采集轨迹，设计渐进式噪声调度策略，按“低噪声→高噪声”顺序打包训练序列，并设计噪声感知注意力掩码和加权双项联合损失函数（渐进式一致性蒸馏损失与AR损失）进行高效训练 [16][17] - 推理阶段优化：采用高效并行解码策略，核心包括“高质量草稿利用+多块调度”两大模块。推理时会缓存并复用轨迹中的高质量n-gram片段作为候选草稿，减少迭代次数。同时维护多个解码块（真实活跃块与伪活跃块）进行并行调度，最大化解码效率 [19][21] 实测性能表现 - 在A100 GPU上的7B模型基准测试中，Jacobi Forcing超越dLLMs、投机解码等主流方案，展现出更优的速度-质量权衡 [25] - 在HumanEval编码任务中，Jacobi Forcing模型实现了3.9倍的速度提升（Speedup），4.0的TPF（tokens-per-forward），以及159.5的TPS（tokens-per-second），准确率为83.5% [25] - 在GSM8K数学任务中，Jacobi Forcing模型实现了3.5倍的速度提升，3.7的TPF，以及146.1的TPS，解题率为91.4% [25] - 无论是编码、数学等专业任务，还是通用文本生成场景，Jacobi Forcing都能在保证结果可靠性的前提下，将推理速度提升一个量级，尤其适合对延迟敏感的工业级LLM应用 [27] 行业影响与前景 - Jacobi Forcing的出现，不仅解决了LLM推理的效率瓶颈，更重新定义了因果模型的并行化可能 [27] - 随着大模型应用向低延迟、高并发场景渗透，这种兼顾兼容性、高性能和高质量的解码方案，有望成为工业级LLM部署的首选技术，推动AI应用效率迈入新阶段 [27]

投机解码（Speculative Decoding）

投机解码（Speculative Decoding）

Jacobi Forcing模型