大模型推理加速 - 财报，业绩电话会，研报，新闻

大模型推理加速

搜索文档

腾讯发布SpecExit算法，无损压缩端到端加速2.5倍！解决大模型长思考效率难题

机器之心· 2025-10-24 11:40

好的，这是对该公众号文章的研读总结。文章核心观点 - 公司提出名为 SpecExit 的新方法，旨在解决大型推理模型因生成长思维链而产生的效率问题 [2] - 该方法将思考早停与投机采样技术相结合，通过轻量级草稿模型预测退出信号，在不影响准确性的前提下显著缩短推理长度并降低时延 [2][9] - 实验结果表明，SpecExit 能实现最高达66%的思维链压缩和2.5倍的端到端推理加速，为推理模型的实践落地提供了有效的加速算法 [23][28] 现有方法局限性 - 基于训练的方法压缩效果显著但伴随高昂训练成本，并可能改变模型输出分布，引发可靠性担忧 [5] - Training-Free 的方法无需训练开销，但依赖探测机制会带来额外计算开销，且更关注词元数量减少而非端到端时延优化 [5] SpecExit 方法创新 - 方法核心是利用投机采样中草稿模型的隐藏状态，该状态天然蕴含置信度、推理进度和剩余长度等信号，无需引入额外探测开销即可实现动态可靠的思考早停 [9][11] - 训练流程包括数据构建、信号标注和多任务学习，通过动态权重策略平衡词元分类与信号回归损失，确保训练有效收敛 [13][15] - 推理流程中，对预测信号进行平滑处理，并引入步骤分割词元作为自然边界，确保思考早停决策的语义连贯性和高鲁棒性 [19][21] 实验结果与性能 - 在Qwen3-4B-Thinking-2507模型上，GSM8K和ARC-Challenge数据集的推理长度分别减少54%和53% [23] - 在DeepSeek-R1-Distill-Llama-8B模型上，推理长度分别减少66%和64%，并在vLLM上实现最高2.5倍的端到端加速 [23] - 相比其他方法，SpecExit在显著缩短思考长度的同时，实现了明显的推理时延加速，在实际应用中更具实用性 [23][25] - 消融实验表明，融合多种信号的策略在减少输出长度和维持精度之间能取得更好平衡 [25]

证券时报· 2025-08-10 15:00

华为AI推理技术突破 - 华为将发布AI推理领域突破性技术成果可能降低中国AI推理对HBM技术的依赖 [1] - 该技术有望提升国内AI大模型推理性能完善中国AI推理生态关键部分 [1] - 华为联合中国银联将于8月12日共同发布AI推理最新应用成果推出推理加速黑科技 [1] HBM技术重要性 - HBM是解决"数据搬运"问题的关键技术 [2] - HBM不足会导致AI推理体验下降出现任务卡顿、响应慢等问题 [2] 金融AI推理论坛议程 - 8月12日将召开"2025金融AI推理应用落地与发展论坛" [3] - 论坛议程包括： - 14:10-14:30 银联推理应用成果介绍及发布仪式 [5] - 14:30-14:45 华为AI存储推理加速解决方案介绍 [5] - 14:45-15:00 大模型推理优化技术突破与产业落地新范式（信通院专家） [5] - 15:00-15:15 以KV Cache存储为中心的大模型推理架构（清华大学专家） [5] - 15:15-15:30 讯飞MaaS平台大模型高性能推理实践（讯飞专家） [5]

ICML 2025｜如何凭「自动补全」实现100K生成3×加速？

机器之心· 2025-05-18 12:25

大模型推理加速挑战 - 当前大模型推理面临超长文本生成的计算成本高、内存负担大、输出重复等问题，制约模型潜力[1] - GPT-o3、DeepSeek R1等具备百万至千万Token上下文窗口的模型使超长推理成为现实需求[1] 传统方法的瓶颈 - 主流模型（如LLaMA、Qwen）采用自回归生成方式，每次仅生成1个Token，导致10万Token以上序列性能急剧下降[4] - 三大核心瓶颈：模型重复重载造成I/O压力、KV缓存无限膨胀、语义重复堆叠[9] TokenSwift技术框架 - BIGAI NLCo团队提出可插拔无损加速框架，专为100K Token级任务设计，加速比达3倍以上[1][7] - 核心技术：多Token并行草拟（每次生成γ个候选）、n-gram启发式补全、树结构验证机制[12][14][16] - 动态KV管理通过重要性衰减策略减少缓存占用，重复惩罚机制提升输出多样性[19] 性能实验数据 - 在YaRN-LLaMA2-7b-128k等模型上测试，100K Token任务中LLaMA3.1-8B生成时间从5小时缩短至1.5小时[21][22] - 序列越长加速越显著：100K时加速比从2.1×提升至3.1×，接受率维持70-90%[23] - Distinct-n指标达0.43-0.69，较未优化前（0.12）显著提升[26] 行业应用价值 - 直接兼容LLaMA、Qwen等主流模型，无需重构架构[28] - 适用于多轮对话、代码生成、Agent计划编排等长文本场景[29] - 开源资源包括论文（ICML 2025）、GitHub代码库及技术博客[8]

大模型推理加速

超长文本生成

Artificial Intelligence

Artificial Intelligence

TokenSwift

GPT-o3

DeepSeek R1