Workflow
扩散型 LLM(dLLMs)
icon
搜索文档
自回归因果注意力也能并行解码?上交联合UCSD突破LLM推理瓶颈,模型代码全开源
机器之心· 2025-12-30 14:57
文章核心观点 - 由UCSD Hao AI Lab和上海交大Deng Lab团队提出的Jacobi Forcing技术,是一种突破性的解决方案,能够将标准自回归(AR)模型转化为原生因果并行解码器,在保持接近AR模型生成质量的同时,显著提升推理速度,为LLM高效推理开辟了新路径 [5] 技术方案核心优势 - Jacobi Forcing的核心创新在于打破了“低代价、高速度、高质量”的不可能三角,其优势体现在三大维度 [7] - 优势一:原生因果架构,部署与训练成本低。该技术保留了AR模型的因果注意力结构,完美适配现有KV缓存复用机制和AR优化内核,可作为现有AR模型的“即插即用”替代方案,极大降低部署与训练成本 [7] - 优势二:高效并行解码,速度提升显著。通过渐进蒸馏训练,模型能在每轮前向传播中并行更新多个token,结合多块并行解码和拒绝回收策略,在编码任务中实现181.8 TPS的生成速度,远超AR基线的39.8 TPS [10] - 优势三:质量损失极小,任务表现优异。通过渐进式一致性蒸馏损失和AR损失的联合优化,模型在噪声环境下仍能生成贴近AR分布的高质量结果。在HumanEval编码基准中,以83.5%的准确率实现4倍提速;在GSM8K数学任务中,91.4%的解题率接近AR基线,速度提升3.7倍 [11] 技术路线详解 - Jacobi Forcing以因果并行解码为核心目标,基于Jacobi解码框架进行深度优化,通过训练机制创新与推理策略升级的全链路设计,在保留AR模型因果骨干与KV缓存兼容性的同时,实现高效并行解码 [14] - 技术基础:基于Jacobi解码的因果并行框架。Jacobi解码是一种因果并行解码过程,对一个块内的所有token进行并行迭代更新,直到所有token与贪心AR输出完全匹配,形成“并行精炼轨迹” [15] - 训练阶段优化:采用噪声感知的渐进式学习。利用AR模型执行Jacobi解码采集轨迹,设计渐进式噪声调度策略,按“低噪声→高噪声”顺序打包训练序列,并设计噪声感知注意力掩码和加权双项联合损失函数(渐进式一致性蒸馏损失与AR损失)进行高效训练 [16][17] - 推理阶段优化:采用高效并行解码策略,核心包括“高质量草稿利用+多块调度”两大模块。推理时会缓存并复用轨迹中的高质量n-gram片段作为候选草稿,减少迭代次数。同时维护多个解码块(真实活跃块与伪活跃块)进行并行调度,最大化解码效率 [19][21] 实测性能表现 - 在A100 GPU上的7B模型基准测试中,Jacobi Forcing超越dLLMs、投机解码等主流方案,展现出更优的速度-质量权衡 [25] - 在HumanEval编码任务中,Jacobi Forcing模型实现了3.9倍的速度提升(Speedup),4.0的TPF(tokens-per-forward),以及159.5的TPS(tokens-per-second),准确率为83.5% [25] - 在GSM8K数学任务中,Jacobi Forcing模型实现了3.5倍的速度提升,3.7的TPF,以及146.1的TPS,解题率为91.4% [25] - 无论是编码、数学等专业任务,还是通用文本生成场景,Jacobi Forcing都能在保证结果可靠性的前提下,将推理速度提升一个量级,尤其适合对延迟敏感的工业级LLM应用 [27] 行业影响与前景 - Jacobi Forcing的出现,不仅解决了LLM推理的效率瓶颈,更重新定义了因果模型的并行化可能 [27] - 随着大模型应用向低延迟、高并发场景渗透,这种兼顾兼容性、高性能和高质量的解码方案,有望成为工业级LLM部署的首选技术,推动AI应用效率迈入新阶段 [27]