Workflow
思考早停
icon
搜索文档
腾讯发布SpecExit算法,无损压缩端到端加速2.5倍!解决大模型长思考效率难题
机器之心· 2025-10-24 11:40
好的,这是对该公众号文章的研读总结。 文章核心观点 - 公司提出名为 SpecExit 的新方法,旨在解决大型推理模型因生成长思维链而产生的效率问题 [2] - 该方法将思考早停与投机采样技术相结合,通过轻量级草稿模型预测退出信号,在不影响准确性的前提下显著缩短推理长度并降低时延 [2][9] - 实验结果表明,SpecExit 能实现最高达66%的思维链压缩和2.5倍的端到端推理加速,为推理模型的实践落地提供了有效的加速算法 [23][28] 现有方法局限性 - 基于训练的方法压缩效果显著但伴随高昂训练成本,并可能改变模型输出分布,引发可靠性担忧 [5] - Training-Free 的方法无需训练开销,但依赖探测机制会带来额外计算开销,且更关注词元数量减少而非端到端时延优化 [5] SpecExit 方法创新 - 方法核心是利用投机采样中草稿模型的隐藏状态,该状态天然蕴含置信度、推理进度和剩余长度等信号,无需引入额外探测开销即可实现动态可靠的思考早停 [9][11] - 训练流程包括数据构建、信号标注和多任务学习,通过动态权重策略平衡词元分类与信号回归损失,确保训练有效收敛 [13][15] - 推理流程中,对预测信号进行平滑处理,并引入步骤分割词元作为自然边界,确保思考早停决策的语义连贯性和高鲁棒性 [19][21] 实验结果与性能 - 在Qwen3-4B-Thinking-2507模型上,GSM8K和ARC-Challenge数据集的推理长度分别减少54%和53% [23] - 在DeepSeek-R1-Distill-Llama-8B模型上,推理长度分别减少66%和64%,并在vLLM上实现最高2.5倍的端到端加速 [23] - 相比其他方法,SpecExit在显著缩短思考长度的同时,实现了明显的推理时延加速,在实际应用中更具实用性 [23][25] - 消融实验表明,融合多种信号的策略在减少输出长度和维持精度之间能取得更好平衡 [25]