Workflow
大模型推理加速
icon
搜索文档
破局显存焦虑:新华三推出大模型推理场景加速方案
经济观察网· 2026-02-03 11:56
行业背景与挑战 - 2026年核心存储供应链的结构性短缺已成行业刚性现实,供需缺口持续扩大且很可能延续至2027年 [2] - 生成式AI正从技术尝鲜全面走向规模化落地,应用场景从训练为主转向训推并重和轻量推理 [2] - PD分离、KV Cache等技术的规模化应用在提升推理效率的同时,对高带宽、大容量的GPU内存提出了极致严苛的要求,显存资源紧张带来的行业焦虑正在持续蔓延 [2] - 存储部件供应短缺与价格跳升带来双重压力,单纯依靠硬件堆叠会大幅推高每token成本,且受供应链产能制约难以为继 [2] - 通过软硬件协同优化提升GPU等关键部件的使用效率,成为破解内存供应链短缺焦虑、降低总体拥有成本的核心路径 [2] 解决方案:新华三与Pliops的联合创新 - 紫光股份旗下新华三联合国际技术伙伴Pliops协同创新,打造出效能兼备的大模型推理场景加速方案 [3] - Pliops的自研定制化ASIC芯片提供硬件级加速,将KV Cache从GPU内存卸载到指定存储节点,构建专为AI设计的“下一代内存层”,减轻GPU显存压力 [3] - 新华三凭借强大的硬件集成与全栈优化能力,驱动前沿科技与自研AI服务器的创新耦合,形成大模型推理加速的最佳实践 [3] - 方案支持单机形态部署以提高单台AI服务器推理性能,也支持通过外置存储节点同时对接多台AI服务器以提高集群推理性能 [4] 方案性能测试结果 - 新华三基于自研高性能AI服务器进行基准测试,运行DeepSeek-V3-671B模型,分别构建10K和30K的文本输入以模拟实际应用场景 [7] - 采用KV Cache卸载加速方案后,在相同TPOT限制下,并发用户数提升200% [7] - 采用KV Cache卸载加速方案后,TTFT(首Token生成的延迟)降低70%,TPOT(每个Token生成的平均延迟)降低30% [7] 方案应用场景 - 交互式应用(如聊天机器人、智能客服):通过快速加载存储历史KV Cache,能够大幅缩短响应延迟,提升用户体验 [8] - 长上下文处理(如长文档问答、代码生成):方案提供的PB级KV Cache扩展能力,使得处理数千甚至数万Tokens上下文的任务更为从容,避免因GPU内存不足导致的性能下降 [8] - 高并发推理服务:通过高效的KV Cache管理,能够支持更多并发会话,显著提高系统的整体吞吐量,在相同的GPU资源下服务更多用户 [8] 未来展望 - 面向未来,公司将持续在AI Infra领域深耕,提供更多针对不同场景、基于不同加速层级和加速介质等技术路线的推理加速方案 [9] - 目标在于帮助企业和开发者更轻松地应对大模型落地应用的复杂性和规模挑战,推动AI技术在更多领域的应用和创新 [9]
腾讯发布SpecExit算法,无损压缩端到端加速2.5倍!解决大模型长思考效率难题
机器之心· 2025-10-24 11:40
好的,这是对该公众号文章的研读总结。 文章核心观点 - 公司提出名为 SpecExit 的新方法,旨在解决大型推理模型因生成长思维链而产生的效率问题 [2] - 该方法将思考早停与投机采样技术相结合,通过轻量级草稿模型预测退出信号,在不影响准确性的前提下显著缩短推理长度并降低时延 [2][9] - 实验结果表明,SpecExit 能实现最高达66%的思维链压缩和2.5倍的端到端推理加速,为推理模型的实践落地提供了有效的加速算法 [23][28] 现有方法局限性 - 基于训练的方法压缩效果显著但伴随高昂训练成本,并可能改变模型输出分布,引发可靠性担忧 [5] - Training-Free 的方法无需训练开销,但依赖探测机制会带来额外计算开销,且更关注词元数量减少而非端到端时延优化 [5] SpecExit 方法创新 - 方法核心是利用投机采样中草稿模型的隐藏状态,该状态天然蕴含置信度、推理进度和剩余长度等信号,无需引入额外探测开销即可实现动态可靠的思考早停 [9][11] - 训练流程包括数据构建、信号标注和多任务学习,通过动态权重策略平衡词元分类与信号回归损失,确保训练有效收敛 [13][15] - 推理流程中,对预测信号进行平滑处理,并引入步骤分割词元作为自然边界,确保思考早停决策的语义连贯性和高鲁棒性 [19][21] 实验结果与性能 - 在Qwen3-4B-Thinking-2507模型上,GSM8K和ARC-Challenge数据集的推理长度分别减少54%和53% [23] - 在DeepSeek-R1-Distill-Llama-8B模型上,推理长度分别减少66%和64%,并在vLLM上实现最高2.5倍的端到端加速 [23] - 相比其他方法,SpecExit在显著缩短思考长度的同时,实现了明显的推理时延加速,在实际应用中更具实用性 [23][25] - 消融实验表明,融合多种信号的策略在减少输出长度和维持精度之间能取得更好平衡 [25]
华为,AI大动作!
证券时报· 2025-08-10 15:00
华为AI推理技术突破 - 华为将发布AI推理领域突破性技术成果 可能降低中国AI推理对HBM技术的依赖 [1] - 该技术有望提升国内AI大模型推理性能 完善中国AI推理生态关键部分 [1] - 华为联合中国银联将于8月12日共同发布AI推理最新应用成果 推出推理加速黑科技 [1] HBM技术重要性 - HBM是解决"数据搬运"问题的关键技术 [2] - HBM不足会导致AI推理体验下降 出现任务卡顿、响应慢等问题 [2] 金融AI推理论坛议程 - 8月12日将召开"2025金融AI推理应用落地与发展论坛" [3] - 论坛议程包括: - 14:10-14:30 银联推理应用成果介绍及发布仪式 [5] - 14:30-14:45 华为AI存储推理加速解决方案介绍 [5] - 14:45-15:00 大模型推理优化技术突破与产业落地新范式(信通院专家) [5] - 15:00-15:15 以KV Cache存储为中心的大模型推理架构(清华大学专家) [5] - 15:15-15:30 讯飞MaaS平台大模型高性能推理实践(讯飞专家) [5]
ICML 2025|如何凭「自动补全」实现100K生成3×加速?
机器之心· 2025-05-18 12:25
大模型推理加速挑战 - 当前大模型推理面临超长文本生成的计算成本高、内存负担大、输出重复等问题,制约模型潜力[1] - GPT-o3、DeepSeek R1等具备百万至千万Token上下文窗口的模型使超长推理成为现实需求[1] 传统方法的瓶颈 - 主流模型(如LLaMA、Qwen)采用自回归生成方式,每次仅生成1个Token,导致10万Token以上序列性能急剧下降[4] - 三大核心瓶颈:模型重复重载造成I/O压力、KV缓存无限膨胀、语义重复堆叠[9] TokenSwift技术框架 - BIGAI NLCo团队提出可插拔无损加速框架,专为100K Token级任务设计,加速比达3倍以上[1][7] - 核心技术:多Token并行草拟(每次生成γ个候选)、n-gram启发式补全、树结构验证机制[12][14][16] - 动态KV管理通过重要性衰减策略减少缓存占用,重复惩罚机制提升输出多样性[19] 性能实验数据 - 在YaRN-LLaMA2-7b-128k等模型上测试,100K Token任务中LLaMA3.1-8B生成时间从5小时缩短至1.5小时[21][22] - 序列越长加速越显著:100K时加速比从2.1×提升至3.1×,接受率维持70-90%[23] - Distinct-n指标达0.43-0.69,较未优化前(0.12)显著提升[26] 行业应用价值 - 直接兼容LLaMA、Qwen等主流模型,无需重构架构[28] - 适用于多轮对话、代码生成、Agent计划编排等长文本场景[29] - 开源资源包括论文(ICML 2025)、GitHub代码库及技术博客[8]