告别Demo、真正跑进生产,华为新框架把Agent端到端效率拉升2.5倍
机器之心·2026-03-13 10:43

文章核心观点 - 华为诺亚方舟实验室与先进计算与存储实验室联合提出AgentInfer,这是一个面向工业Agent的端到端加速框架,其核心在于将推理架构设计与推理服务系统进行协同优化,以解决大模型Agent从Demo走向生产时遇到的真实效率瓶颈[2] - 该框架不是单点技巧,而是一套可拆可合的系统化方案,其四个模块单独启用均有收益,组合后收益可叠加,并且在高并发、多会话、长上下文的真实负载下依然有效[2] - 文章认为,Agent的效率优化不能仅关注单步推理速度,而应着眼于减少无效回合、减少重算、提高跨轮次复用,本质是一个需要从端到端出发的系统性问题[4][8][27] - 实验表明,AgentInfer在工业场景下能显著提升效率,例如将无效token消耗降低50%以上,实现1.8倍至2.5倍的端到端加速,同时保持任务准确率稳定,并在高并发下QPS(每秒查询率)提升可达2.52倍[24][29] 传统Agent加速方法的陷阱 - 量化陷阱:对模型进行INT8量化后,单步推理速度提升45.0%(吞吐从42.5 Tokens/s提升至61.6 Tokens/s),平均推理时间减少33.3%(从45.0秒降至30.0秒),但由于精度下降导致任务成功率从88.2%降至61.7%,触发大量自我修复回路,使平均恢复时间暴增1000%(从5.0秒增至55.0秒),端到端总时间反而上升[5][6] - 文本总结不靠谱:通过总结压缩上下文,虽然使单步平均token数从8,500降至2,100(压缩4倍),但导致平均解决问题所需轮次从4.0轮激增至14.0轮(增加3.5倍),总token消耗仅从约34k降至约29.4k(边际收益),并引入高上下文漂移率,认知模糊性增加[6][7] - 记忆持久性瓶颈(KV-cache):在高并发下,采用短作业优先(SJF)调度策略时,长上下文(>32K)会话的KV-cache命中率极低(仅15%),导致大量重算,prefill延迟高达3,100毫秒,严重影响系统吞吐和稳定性[7][8] AgentInfer框架的四个核心模块 - AgentCollab:难度感知的大小模型协作 - 核心思路是将常规工作交给小模型,关键规划与卡住的推理交给大模型,通过一个结构化的Progress Check自评机制动态判断是否取得实质进展,若停滞则升级到大模型救场,从而在多数时间使用便宜模型,仅在困难段落调用昂贵模型,实现质量与成本间的帕累托最优[12][13] - AgentCompress:语义压缩与异步蒸馏 - 针对深度研究/搜索型Agent上下文易被搜索结果等撑爆的问题,该模块执行两项操作:一是用轻量模型对搜索结果(URL/摘要)进行过滤排序,减少无关内容进入后续流程,降低并行工具调用压力;二是异步压缩工具输出等“环境交互记忆”,但关键保留“推理轨迹”,以维持Agent的认知连续性,避免因“失忆”导致回合数暴涨[14][16][17] - AgentSched:KV-aware的自适应调度 - 为解决高并发下长短请求混合导致的调度矛盾(纯FCFS被长请求阻塞,纯SJF牺牲长会话KV-cache持久性),该模块引入一个可解释的控制信号(shadow-price),在“优先短请求低延迟”和“优先高KV复用”之间自适应切换,缓存宽松时类似SJF,缓存紧张时更偏KV-aware,从而保护长会话上下文,减少昂贵的prefill重算,确保系统在高压力下不抖动、不崩溃且吞吐能提升[19][20][25] - AgentSAM:跨会话投机解码 - 利用后缀自动机(SAM)识别并利用Agent推理中出现的高重复模式(如多轮反复提问、相似请求模板、多次引用的检索证据),将当前会话与语义相似的历史会话组合,为投机解码提供更高命中率的草稿,同时通过异步构建避免阻塞首token延迟,并带有自适应开关,在batch太大或投机收益变差时自动回退,避免负优化[21] 框架的性能与工业可用性 - 模块化与增益可叠加:实验采用逐步叠加方式,在BrowseComp-zh / DeepDiver基准上进行端到端评估,结果显示每个模块的加入都能带来额外增益,组合后收益叠加而非相互抵消[23][26] - 高并发下的稳定性能提升:在并发会话数(Nparallel)从4提升到16时,系统QPS提升依然稳定 - 仅使用AgentCollab,QPS提升为1.32倍(Nparallel=4)至1.52倍(Nparallel=16) - 叠加AgentCompress后,提升至1.57倍至2.01倍 - 再叠加AgentSched后,提升至1.71倍至2.25倍 - 全部四个模块叠加后,最终提升达到1.97倍至2.52倍,证明优化在资源争用、缓存压力大的真实负载中保持稳定[24] - 端到端效率优化显著:框架能将无效token消耗降低50%以上,实现1.8倍至2.5倍的端到端加速,同时保持任务准确率稳定,其设计目标是让Agent在长周期任务与高并发环境中保持效率与认知稳定,定位为一套自演进引擎[29]