Small Language Models
搜索文档
A CPU-CENTRIC PERSPECTIVE ON AGENTIC AI
2026-01-22 10:43
涉及的行业或公司 * 行业:人工智能(AI),特别是代理式人工智能(Agentic AI)和大型语言模型(LLM)领域 [1][2][3] * 公司/机构:研究涉及英特尔(Intel)、英伟达(NVIDIA)、佐治亚理工学院(Georgia Institute of Technology)等机构,并分析了如LangChain、Haystack、ChemCrow、SWE-Agent、Toolformer等开源框架和模型 [3][5][20][29] 核心观点和论据 * **研究核心**:从以CPU为中心的视角,系统性地分析代理式AI工作负载引入的系统瓶颈,并提出优化方案 [3][9] * **代理式AI定义与优势**:代理式AI框架在单体LLM之上增加了决策编排器和外部工具,使其能够规划、调用工具、记忆和自适应,从而在需要外部知识集成和迭代优化的任务上表现显著优于单体模型 [2][5][6] * 例如,ReAct在ALFWorld任务上的成功率比同等规模单体模型高27%,在WebShop上提升34% [5] * WebGPT显示,7B参数模型在知识密集型任务上可以匹配或超越70B单体模型的性能,在TruthfulQA上达到64.1%准确率,而GPT-3为59.3% [6] * **模型选择**:小型语言模型(SLM)因其快速迭代和隐私保护特性适合代理式AI,但在长程规划、科学任务和多工具编排上表现不佳,因此研究中针对不同任务复杂度混合使用LLM和SLM [7][8] * **系统级表征**:提出了三个正交的分类基础来表征代理式AI系统,直接影响系统级指标 [9][16] 1. **编排器**:分为LLM编排(如ReAct, AutoGPT)和主机(CPU)编排(如LangChain, Haystack) [16][17][18] 2. **代理路径**:分为静态路径(预定流程)和动态路径(运行时决定) [16][18][19] 3. **流程/重复性**:分为单步(如RAG)和多步(如WebArena) [16][19][20] * **CPU瓶颈的揭示**:通过分析五个代表性工作负载(Haystack RAG, Toolformer, ChemCrow, Langchain, SWE-Agent),发现CPU是代理式AI的关键瓶颈 [3][10] 1. **延迟**:CPU上的工具处理(如检索、API调用、代码执行)可占总延迟的90.6% [3][10][33] * Haystack RAG中,检索耗时6.0-8.0秒,占运行时的84.5-90.6% [33] * SWE-Agent中,Bash/Python执行占APPS、BigCodeBench、DS-1000基准测试总延迟的43.8%、64.7%和78.7% [33] 2. **吞吐量**:代理式吞吐量受限于CPU因素(核心数、一致性、同步、核心过载)或GPU因素(主存容量和带宽) [3][10][36][45] * GPU方面,KV缓存增长会导致内存带宽饱和,OPT-175B的KV缓存需要1.2TB内存,是模型权重的3.8倍 [39][40] * CPU方面,缓存一致性、同步热点、核心过载(如Langchain工作负载在批大小128时,摘要任务平均延迟从2.9秒增至6.3秒)会限制吞吐量 [41][43][44] 3. **能耗**:在大批量(128)时,CPU动态能耗可占总动态能耗的44% [3][10][47][49] * 在Langchain工作负载中,批大小从1增至128时,CPU能耗从22焦耳增至1807焦耳(增长86.7倍),GPU能耗从86焦耳增至2307焦耳(增长26.8倍) [47] 其他重要内容 * **优化方案**:基于分析结果,提出了两种关键的调度优化 [3][11][50] 1. **CPU和GPU感知的微批处理(CGAM)**:针对同构工作负载,通过设置批处理上限(Bcap)来优化延迟和能耗 [50][51][52] * 选择Bcap=64,在吞吐量增益比r(B)低于阈值λ=1.1时停止增加批大小 [53] * 相比多处理基准,CGAM可实现高达2.11倍的P50延迟加速,并减少约1.5倍的CPU动态能耗和一半的KV缓存使用 [54][65] 2. **混合代理工作负载调度(MAWS)**:针对异构工作负载(CPU密集型与LLM密集型混合),自适应地使用多处理(CPU密集型)和多线程(LLM密集型) [50][58][60] * 在128个混合任务中,MAWS的P99延迟比多处理基准好1.17倍 [66] * 结合CGAM(MAWS+CGAM)处理256个任务时,对CPU密集型任务、LLM密集型任务和所有任务的P50延迟分别比基准好2.1倍、1.2倍和1.4倍,整体P99延迟节省1.15倍 [67] * **实验设置**:使用最先进的系统进行性能分析,包括48核英特尔Emerald Rapids CPU(DDR5 DRAM)和英伟达B200 GPU(HBM3e) [31] * **工作负载选择依据**:选择的五个工作负载具有挑战性应用(事实、编码、科学任务)、多样化的计算模式以及学术和工业相关性 [21][22] * **工具处理的重要性**:研究强调了非GPU工具(如精确最近邻搜索ENNS、网页搜索、词法摘要)在代理式AI管道中的关键作用及其对性能的显著影响 [9][26][30] * 例如,在200GB文档语料库的RAG工作负载中,ENNS占端到端延迟的75%以上 [9] * 选择基于CPU的LexRank摘要器而非基于LLM的摘要器,原因包括减少幻觉、相当的领域准确性以及成本效益 [30] * **与现有研究的区别**:本研究区别于先前主要关注GPU内核和KV缓存调优的工作,首次全面地从延迟、吞吐量和能耗三个评估指标揭示了代理式AI的CPU瓶颈 [10][68]
KPMG and Uniphore form AI agent collaboration for regulated industries
Yahoo Finance· 2026-01-20 17:25
核心合作与战略目标 - 毕马威与软件公司Uniphore建立战略合作关系 旨在部署由行业特定小型语言模型驱动的AI智能体 重点关注银行、保险、能源和医疗等受监管行业 [1] - 合作是毕马威更广泛计划的一部分 旨在为其全球员工配备AI赋能的交付模式 [2] - 公司致力于将AI嵌入核心业务流程 使咨询团队能够设计、部署和管理AI智能体 结合人类判断与AI驱动执行 以交付明确的业务成果 [3] 技术平台与实施架构 - 毕马威将使用Uniphore的Business AI Cloud作为平台 在内部和面向客户的工作流程中构建和运营智能AI及微调的小型语言模型 [1] - 该平台基于主权、可组合且安全的架构构建 旨在与毕马威现有企业系统和数据环境集成 并满足受监管行业的治理与合规要求 [2] - 合作的一个核心组成部分是小型语言模型工厂模式 用于将传统通过人员和文档完成的知识工作转化为可扩展、可重复使用的AI系统 该模式旨在支持可重复开发的AI智能体 以适应不同行业和流程 [5] 具体应用与解决方案 - 毕马威计划利用Uniphore的Business AI Cloud 将机构知识、监管框架和流程手册编码到行业特定的小型语言模型中 [4] - 公司目标是在采购、劳动力优化、财务、理赔和客户体验等职能领域部署受治理的AI智能体 [5] - 在初始客户解决方案中 毕马威正在利用Uniphore技术开发AI赋能的采购与合同管理能力 该方案中的AI智能体可对高价值合同进行分类、将条款与批准标准进行比较、提取合同义务、识别潜在风险领域 并将例外情况路由至人工审核员批准 [6] - 两家公司瞄准的是生产级AI部署 而非有限的试点项目 [6] 合作愿景与价值主张 - 毕马威咨询业务负责人表示 合作旨在帮助客户从AI实验转向实现真正的运营价值 并将AI作为业务变革力量 [3] - 合作支持毕马威的使命 即以受治理、可扩展且符合客户需求的方式 将商业AI嵌入工作完成方式中 [4]
Straker Limited (ASX: STG) Announces Extension and Expansion of IBM Partnership
Prnewswire· 2025-10-30 15:29
合作协议续签与财务影响 - 公司与IBM续签三年战略合作协议,自2026年1月1日起生效,IBM有权在三年期满后再续约一年 [1][2] - 新协议初始三年期预期合同价值约为2800万新西兰元(1610万美元),收入基于客户使用量,可能因周期而异 [2] - 此次续约为公司提供了初始三年期的持续收入可见度,但需取决于实际处理量 [3] 合作范围扩展与战略深化 - 合作关系已超越本地化服务,公司被纳入IBM生态系统合作伙伴网络,合作关系将主要由IBM日本公司管理 [5] - 协议核心条款与之前一致,但更侧重于在IBM全球运营中部署AI驱动解决方案,目前已有1万用户使用公司的AI驱动Slack翻译应用 [4] - 协议中大部分将转向AI令牌计费,进一步推动公司AI收入增长 [4] 技术合作与创新重点 - 扩大合作的一个关键焦点是联合开发定制化的小语言模型,这些模型基于IBM Cloud的watsonx AI技术和公司专有的Tiri平台构建 [6] - 联合开发的模型已显示出优于行业基准的性能,验证了专业化小语言模型的商业价值以及企业AI领域更广泛的合作机会 [7] - 合作正从服务交付扩展到共同创新,加强了公司在语言与AI交叉领域的战略定位 [8]