A CPU-CENTRIC PERSPECTIVE ON AGENTIC AI

涉及的行业或公司 * 行业：人工智能（AI），特别是代理式人工智能（Agentic AI）和大型语言模型（LLM）领域 [1][2][3] * 公司/机构：研究涉及英特尔（Intel）、英伟达（NVIDIA）、佐治亚理工学院（Georgia Institute of Technology）等机构，并分析了如LangChain、Haystack、ChemCrow、SWE-Agent、Toolformer等开源框架和模型 [3][5][20][29] 核心观点和论据 * 研究核心：从以CPU为中心的视角，系统性地分析代理式AI工作负载引入的系统瓶颈，并提出优化方案 [3][9] * 代理式AI定义与优势：代理式AI框架在单体LLM之上增加了决策编排器和外部工具，使其能够规划、调用工具、记忆和自适应，从而在需要外部知识集成和迭代优化的任务上表现显著优于单体模型 [2][5][6] * 例如，ReAct在ALFWorld任务上的成功率比同等规模单体模型高27%，在WebShop上提升34% [5] * WebGPT显示，7B参数模型在知识密集型任务上可以匹配或超越70B单体模型的性能，在TruthfulQA上达到64.1%准确率，而GPT-3为59.3% [6] * 模型选择：小型语言模型（SLM）因其快速迭代和隐私保护特性适合代理式AI，但在长程规划、科学任务和多工具编排上表现不佳，因此研究中针对不同任务复杂度混合使用LLM和SLM [7][8] * 系统级表征：提出了三个正交的分类基础来表征代理式AI系统，直接影响系统级指标 [9][16] 1. 编排器：分为LLM编排（如ReAct, AutoGPT）和主机（CPU）编排（如LangChain, Haystack） [16][17][18] 2. 代理路径：分为静态路径（预定流程）和动态路径（运行时决定） [16][18][19] 3. 流程/重复性：分为单步（如RAG）和多步（如WebArena） [16][19][20] * CPU瓶颈的揭示：通过分析五个代表性工作负载（Haystack RAG, Toolformer, ChemCrow, Langchain, SWE-Agent），发现CPU是代理式AI的关键瓶颈 [3][10] 1. 延迟：CPU上的工具处理（如检索、API调用、代码执行）可占总延迟的90.6% [3][10][33] * Haystack RAG中，检索耗时6.0-8.0秒，占运行时的84.5-90.6% [33] * SWE-Agent中，Bash/Python执行占APPS、BigCodeBench、DS-1000基准测试总延迟的43.8%、64.7%和78.7% [33] 2. 吞吐量：代理式吞吐量受限于CPU因素（核心数、一致性、同步、核心过载）或GPU因素（主存容量和带宽） [3][10][36][45] * GPU方面，KV缓存增长会导致内存带宽饱和，OPT-175B的KV缓存需要1.2TB内存，是模型权重的3.8倍 [39][40] * CPU方面，缓存一致性、同步热点、核心过载（如Langchain工作负载在批大小128时，摘要任务平均延迟从2.9秒增至6.3秒）会限制吞吐量 [41][43][44] 3. 能耗：在大批量（128）时，CPU动态能耗可占总动态能耗的44% [3][10][47][49] * 在Langchain工作负载中，批大小从1增至128时，CPU能耗从22焦耳增至1807焦耳（增长86.7倍），GPU能耗从86焦耳增至2307焦耳（增长26.8倍） [47] 其他重要内容 * 优化方案：基于分析结果，提出了两种关键的调度优化 [3][11][50] 1. CPU和GPU感知的微批处理（CGAM）：针对同构工作负载，通过设置批处理上限（Bcap）来优化延迟和能耗 [50][51][52] * 选择Bcap=64，在吞吐量增益比r(B)低于阈值λ=1.1时停止增加批大小 [53] * 相比多处理基准，CGAM可实现高达2.11倍的P50延迟加速，并减少约1.5倍的CPU动态能耗和一半的KV缓存使用 [54][65] 2. 混合代理工作负载调度（MAWS）：针对异构工作负载（CPU密集型与LLM密集型混合），自适应地使用多处理（CPU密集型）和多线程（LLM密集型） [50][58][60] * 在128个混合任务中，MAWS的P99延迟比多处理基准好1.17倍 [66] * 结合CGAM（MAWS+CGAM）处理256个任务时，对CPU密集型任务、LLM密集型任务和所有任务的P50延迟分别比基准好2.1倍、1.2倍和1.4倍，整体P99延迟节省1.15倍 [67] * 实验设置：使用最先进的系统进行性能分析，包括48核英特尔Emerald Rapids CPU（DDR5 DRAM）和英伟达B200 GPU（HBM3e） [31] * 工作负载选择依据：选择的五个工作负载具有挑战性应用（事实、编码、科学任务）、多样化的计算模式以及学术和工业相关性 [21][22] * 工具处理的重要性：研究强调了非GPU工具（如精确最近邻搜索ENNS、网页搜索、词法摘要）在代理式AI管道中的关键作用及其对性能的显著影响 [9][26][30] * 例如，在200GB文档语料库的RAG工作负载中，ENNS占端到端延迟的75%以上 [9] * 选择基于CPU的LexRank摘要器而非基于LLM的摘要器，原因包括减少幻觉、相当的领域准确性以及成本效益 [30] * 与现有研究的区别：本研究区别于先前主要关注GPU内核和KV缓存调优的工作，首次全面地从延迟、吞吐量和能耗三个评估指标揭示了代理式AI的CPU瓶颈 [10][68]