告别Demo、真正跑进生产，华为新框架把Agent端到端效率拉升2.5倍

文章核心观点 - 华为诺亚方舟实验室与先进计算与存储实验室联合提出AgentInfer，这是一个面向工业Agent的端到端加速框架，其核心在于将推理架构设计与推理服务系统进行协同优化，以解决大模型Agent从Demo走向生产时遇到的真实效率瓶颈[2] - 该框架不是单点技巧，而是一套可拆可合的系统化方案，其四个模块单独启用均有收益，组合后收益可叠加，并且在高并发、多会话、长上下文的真实负载下依然有效[2] - 文章认为，Agent的效率优化不能仅关注单步推理速度，而应着眼于减少无效回合、减少重算、提高跨轮次复用，本质是一个需要从端到端出发的系统性问题[4][8][27] - 实验表明，AgentInfer在工业场景下能显著提升效率，例如将无效token消耗降低50%以上，实现1.8倍至2.5倍的端到端加速，同时保持任务准确率稳定，并在高并发下QPS（每秒查询率）提升可达2.52倍[24][29] 传统Agent加速方法的陷阱 - 量化陷阱：对模型进行INT8量化后，单步推理速度提升45.0%（吞吐从42.5 Tokens/s提升至61.6 Tokens/s），平均推理时间减少33.3%（从45.0秒降至30.0秒），但由于精度下降导致任务成功率从88.2%降至61.7%，触发大量自我修复回路，使平均恢复时间暴增1000%（从5.0秒增至55.0秒），端到端总时间反而上升[5][6] - 文本总结不靠谱：通过总结压缩上下文，虽然使单步平均token数从8,500降至2,100（压缩4倍），但导致平均解决问题所需轮次从4.0轮激增至14.0轮（增加3.5倍），总token消耗仅从约34k降至约29.4k（边际收益），并引入高上下文漂移率，认知模糊性增加[6][7] - 记忆持久性瓶颈（KV-cache）：在高并发下，采用短作业优先（SJF）调度策略时，长上下文（>32K）会话的KV-cache命中率极低（仅15%），导致大量重算，prefill延迟高达3,100毫秒，严重影响系统吞吐和稳定性[7][8] AgentInfer框架的四个核心模块 - AgentCollab：难度感知的大小模型协作 - 核心思路是将常规工作交给小模型，关键规划与卡住的推理交给大模型，通过一个结构化的Progress Check自评机制动态判断是否取得实质进展，若停滞则升级到大模型救场，从而在多数时间使用便宜模型，仅在困难段落调用昂贵模型，实现质量与成本间的帕累托最优[12][13] - AgentCompress：语义压缩与异步蒸馏 - 针对深度研究/搜索型Agent上下文易被搜索结果等撑爆的问题，该模块执行两项操作：一是用轻量模型对搜索结果（URL/摘要）进行过滤排序，减少无关内容进入后续流程，降低并行工具调用压力；二是异步压缩工具输出等“环境交互记忆”，但关键保留“推理轨迹”，以维持Agent的认知连续性，避免因“失忆”导致回合数暴涨[14][16][17] - AgentSched：KV-aware的自适应调度 - 为解决高并发下长短请求混合导致的调度矛盾（纯FCFS被长请求阻塞，纯SJF牺牲长会话KV-cache持久性），该模块引入一个可解释的控制信号（shadow-price），在“优先短请求低延迟”和“优先高KV复用”之间自适应切换，缓存宽松时类似SJF，缓存紧张时更偏KV-aware，从而保护长会话上下文，减少昂贵的prefill重算，确保系统在高压力下不抖动、不崩溃且吞吐能提升[19][20][25] - AgentSAM：跨会话投机解码 - 利用后缀自动机（SAM）识别并利用Agent推理中出现的高重复模式（如多轮反复提问、相似请求模板、多次引用的检索证据），将当前会话与语义相似的历史会话组合，为投机解码提供更高命中率的草稿，同时通过异步构建避免阻塞首token延迟，并带有自适应开关，在batch太大或投机收益变差时自动回退，避免负优化[21] 框架的性能与工业可用性 - 模块化与增益可叠加：实验采用逐步叠加方式，在BrowseComp-zh / DeepDiver基准上进行端到端评估，结果显示每个模块的加入都能带来额外增益，组合后收益叠加而非相互抵消[23][26] - 高并发下的稳定性能提升：在并发会话数（Nparallel）从4提升到16时，系统QPS提升依然稳定 - 仅使用AgentCollab，QPS提升为1.32倍（Nparallel=4）至1.52倍（Nparallel=16） - 叠加AgentCompress后，提升至1.57倍至2.01倍 - 再叠加AgentSched后，提升至1.71倍至2.25倍 - 全部四个模块叠加后，最终提升达到1.97倍至2.52倍，证明优化在资源争用、缓存压力大的真实负载中保持稳定[24] - 端到端效率优化显著：框架能将无效token消耗降低50%以上，实现1.8倍至2.5倍的端到端加速，同时保持任务准确率稳定，其设计目标是让Agent在长周期任务与高并发环境中保持效率与认知稳定，定位为一套自演进引擎[29]