Workflow
投机采样
icon
搜索文档
腾讯发布SpecExit算法,无损压缩端到端加速2.5倍!解决大模型长思考效率难题
机器之心· 2025-10-24 11:40
好的,这是对该公众号文章的研读总结。 文章核心观点 - 公司提出名为 SpecExit 的新方法,旨在解决大型推理模型因生成长思维链而产生的效率问题 [2] - 该方法将思考早停与投机采样技术相结合,通过轻量级草稿模型预测退出信号,在不影响准确性的前提下显著缩短推理长度并降低时延 [2][9] - 实验结果表明,SpecExit 能实现最高达66%的思维链压缩和2.5倍的端到端推理加速,为推理模型的实践落地提供了有效的加速算法 [23][28] 现有方法局限性 - 基于训练的方法压缩效果显著但伴随高昂训练成本,并可能改变模型输出分布,引发可靠性担忧 [5] - Training-Free 的方法无需训练开销,但依赖探测机制会带来额外计算开销,且更关注词元数量减少而非端到端时延优化 [5] SpecExit 方法创新 - 方法核心是利用投机采样中草稿模型的隐藏状态,该状态天然蕴含置信度、推理进度和剩余长度等信号,无需引入额外探测开销即可实现动态可靠的思考早停 [9][11] - 训练流程包括数据构建、信号标注和多任务学习,通过动态权重策略平衡词元分类与信号回归损失,确保训练有效收敛 [13][15] - 推理流程中,对预测信号进行平滑处理,并引入步骤分割词元作为自然边界,确保思考早停决策的语义连贯性和高鲁棒性 [19][21] 实验结果与性能 - 在Qwen3-4B-Thinking-2507模型上,GSM8K和ARC-Challenge数据集的推理长度分别减少54%和53% [23] - 在DeepSeek-R1-Distill-Llama-8B模型上,推理长度分别减少66%和64%,并在vLLM上实现最高2.5倍的端到端加速 [23] - 相比其他方法,SpecExit在显著缩短思考长度的同时,实现了明显的推理时延加速,在实际应用中更具实用性 [23][25] - 消融实验表明,融合多种信号的策略在减少输出长度和维持精度之间能取得更好平衡 [25]
超大模型推理加速2.18倍!SGLang联合美团技术团队开源投机采样训练框架
量子位· 2025-07-26 17:01
开源框架SpecForge - SGLang团队联合美团搜推平台、Cloudsway.AI开源专为超大模型设计的投机采样训练框架SpecForge [1] - 该框架基于Eagle3技术,是首个支持超大模型投机采样训练并开箱即用的框架,与SGLang推理引擎深度集成 [5] - 针对当前开源社区缺乏支持超大尺寸模型训练且与SGLang深度结合框架的痛点 [6] 技术特性 - 集成最先进的投机采样方法Eagle3,通过轻量级草稿模型预测目标模型token分布实现高接受率和性能提升 [7] - 原生支持主流模型架构包括复杂MoE层和Transformer变体 [7] - 采用FSDP和TP并行策略实现GPU集群高效扩展,显著降低大规模训练内存开销 [7][14] - 创新性封装训练时测试(TTT)架构,通过模拟多步生成增强模型健壮性 [9] - 提供在线与离线双重训练模式,动态调整隐藏状态收集策略 [10][17] 性能表现 - 在320K样本数据集上为LLaMA 4训练的草稿模型实现2.18倍推理加速 [15] - 在MT-Bench等行业标准基准测试中表现出色,验证与Eagle3架构的兼容性 [15] - 通过bench_speculative脚本可针对不同硬件调优出最佳性能参数 [16] 应用场景 - 适用于Kimi K2、Qwen Coder等超大型开源模型的推理效率提升 [4] - 在线模式适合快速实验和存储有限场景,离线模式保证实验可复现性 [17] - 未来计划支持更多模型架构包括Kimi K2、Qwen-3 MoE及视觉-语言模型 [22] 资源获取 - GitHub仓库提供完整源代码包括TTT实现细节 [20] - Hugging Face提供LLaMA 4 Scout和Maverick预训练模型 [20]