Workflow
粗思考
icon
搜索文档
复旦北大联合美团LongCat提出TDAR:用“粗思考,细求证”破解Block Diffusion的速度精度悖论
机器之心· 2026-03-12 17:30
行业背景与技术挑战 - 测试时扩展已成为提升模型推理能力的关键路径,块扩散语言模型因其独特的并行解码能力,被视为超越传统自回归模型推理效率的有力竞争者 [2] - 现有块扩散语言模型在长链推理中面临效率与效果的两难博弈:大块解码速度快但复杂推理易出错,小块解码准确但速度慢,同时固定置信度解码策略无法适应推理链中“难易交替”的动态特性 [2] 核心解决方案:TDAR框架 - 复旦大学NLP实验室、北京大学知识计算实验室与美团LongCat Team联合提出新框架TDAR,通过“粗思考,细求证”范式与有界自适应置信度解码,旨在打破速度与精度的零和博弈 [2] - 框架包含两大核心创新:有界自适应置信度解码算法,以及TCCF范式 [6] BACD解码算法详解 - BACD算法利用已生成token的平均置信度作为信号,动态调整当前去噪阈值,并设有上下限边界保护机制,上限在模型自信时激进加速,下限在模型不确定时强制保守,使模型能根据步骤难易调整速度 [9] - 与主流动态置信度解码相比,BACD在获得持续效率增益的同时,能维持更稳定的性能表现,有效避免了低阈值下的“模型崩溃”和“重复生成”问题 [19][20] TCCF范式详解 - TCCF范式根据推理阶段的功能分配不同计算粒度:在“粗思考”阶段使用大块进行快速探索性推理,在“细求证”阶段使用小块进行精细验证、纠错和总结 [11][15] - 该范式被证明具有普适性增益,在不同解码算法下引入TCCF都能带来一致且显著的性能提升,特别是在BACD算法中有效提升了不同阈值下的性能下限 [27] 实验性能结果 - 在Math500、AIME24、AIME25、AMC23、GPQA、LiveCodeBench共6个主流推理基准上评估,TDAR-8B-Thinking在8B规模块扩散模型中取得最佳性能,平均性能超越前SOTA模型TraDo-8B达3.4个百分点,解码速度从1.27 TPF提升至2.97 TPF [13] - 结合BACD算法后,速度进一步提升至3.37 TPF且性能再涨1.6个百分点;叠加TCCF范式后,在AIME24复杂数学任务上准确率从36.3%提升至42.9%,同时维持3.04 TPF的高速度 [13][16] - 具体在AIME24基准上,TDAR-8B-Thinking的TPF达到4.47,平均性能为34.6 [14] 技术深度分析 - 块大小是影响模型性能与效率的关键变量,随着块增大,推理速度线性增长但生成质量会衰退,权衡分析确定B=16为8B模型的最佳平衡点,TDAR通过渐进式块大小扩展策略在此设置下兼顾速度与推理能力 [23] - BACD与动态置信度解码等方法在不同阈值下的效率-准确率对比显示,BACD在获得效率增益的同时能更好地维持性能 [24] 结论与行业影响 - TDAR的提出标志着块扩散语言模型在复杂推理任务上迈出重要一步,使大块大小不再是禁区,能够兼顾质量与速度 [31] - 该框架不仅为块扩散语言模型的测试时扩展提供了高效解决方案,也为未来并行推理模型的设计提供了新思路 [32] 研究团队与资源 - 研究团队成员来自美团LongCat后训练团队,包括复旦大学、北京大学的硕士生及美团的研究员 [33][34] - 相关论文、代码及模型已公开,论文发布于arXiv,代码开源在GitHub,模型发布于Hugging Face平台 [3]