优先级感知调度

搜索文档
搜索Agent最新高效推理框架:吞吐量翻3倍、延迟降至1/5,还不牺牲答案质量丨南开& UIUC研究
量子位· 2025-05-29 09:08
大语言模型搜索智能体效率优化 - 大语言模型驱动的搜索智能体通过动态拆解问题、交错执行推理和检索来解决复杂任务,展现强大能力 [1] - 深度交互存在显著效率痛点,包括检索慢、不准等问题拖慢整体流程 [2][3] - SearchAgent-X框架实现吞吐量提升1.3-3.4倍,延迟降至1/1.7-1/5,且不牺牲答案质量 [3] 检索效率瓶颈分析 - 检索精度存在非单调关系:过低精度导致更多轮次检索,过高精度则计算资源消耗过大 [5][6] - 研究表明系统吞吐量随近似检索精度先升后降,超过最佳点后检索成本反噬效率 [6] - 检索延迟微小增加可导致端到端延迟放大高达83倍,与KV-cache命中率骤降相关 [11] 延迟放大核心原因 - 不当调度导致55.9%的token被不必要重计算,因长任务KV-cache被短任务抢占 [12] - 异步检索与生成时间错位使25%序列经历检索停滞,错过调度批次 [13] SearchAgent-X优化机制 - 优先级感知调度动态排序请求,核心理念是"让最有价值的计算优先" [17][18] - 无停顿检索采用自适应提前终止策略,判断检索成熟度与LLM就绪状态 [19][20][22] 性能验证结果 - 离线推理吞吐量比基线高1.3-3.4倍,延迟降至20%-60% [27] - 在线推理完成请求量多1.5-3.5倍,高负载时达基线5.8倍 [27] - 六个数据集测试显示生成准确率与精确检索基线相当,部分数据集因扰动略有提升 [28][29] 技术组件贡献度 - 优先级调度使KV-cache命中率从0.07提升至0.51,延迟降低35.55% [30] - 无停顿检索进一步将命中率提升至0.65,微小时间节省显著影响端到端延迟 [31] 行业应用启示 - AI智能体需平衡工具性能与整体工作流匹配度,单一组件并非越高越好 [33] - 复杂系统中微小延迟和调度不当会产生雪崩效应,需系统性优化 [34]