半导体行业深度报告:AgenticAI时代的算力重构:CPU,从“旁观者”到“总指挥”的价值回归
东吴证券·2026-01-28 11:29

报告行业投资评级 - 增持(维持)[1] 报告的核心观点 - 报告认为,随着AI从对话模型转向执行任务的智能体(Agent),算力需求发生结构性变化,CPU的角色将从传统的调度附属演变为承载高并发、长任务执行与海量记忆(KV Cache)的核心算力,价值回归[1][2][5] - 在Agentic AI时代,CPU因其对复杂控制流、高并发调度和大容量内存承载的天然优势而变得不可替代,行业正朝着超多核、高内存带宽的架构方向演进,需求将确定性放量[2][5][17][25][31] 根据相关目录分别进行总结 1. 从对话模型到行动智能体:Agent架构重塑CPU与GPU分工 - Agent形态转变:主流Agent形态从模型推理转向“浏览器+代码执行”,其本质是运行在具备完整操作系统能力的云端沙盒计算环境中,GPU仅作为被调度的加速器[11] - CPU的不可替代性(控制流):Agent执行阶段涉及大量if/else判断与系统调用,控制流高度异构和发散,这会导致GPU算力利用率急剧下降(在32路完全发散时性能下降可达27-125倍),而CPU的MIMD架构及长期优化的分支预测机制(预测准确率需达95%+)天然适配此类任务[5][17][18] - CPU的不可替代性(内存需求):长上下文推理产生巨大的KV Cache,其占用随对话轮次线性增长,快速耗尽GPU HBM容量,CPU搭配大容量DDR5/LPDDR5(并通过CXL扩展)承载KV Cache成为兼顾成本与效率的主流架构,HBM3e单位容量价格曾是DDR5的4–5倍[5][23][24] 2. Agent软件基础设施加速落地,CPU多核化与需求放量进入确定性通道 - 系统瓶颈转移:研究显示,在完整Agent执行链路中,工具处理环节(检索、代码执行等)在CPU上消耗的时间占端到端延迟的比例最高可达90.6%,高并发下(Batch Size=128),CPU端到端延迟从2.9秒跃升至6.3秒以上,系统瓶颈已从GPU计算转向CPU并发调度[5][25] - 产业端推进:AWS、Google Cloud等头部CSP正在加速建设面向Agent的沙盒环境,通过软件层强化隔离与编排能力,为CPU侧基础设施的规模化部署奠定基础[2][30] - CPU架构演进:为支撑大规模、长期运行的Agent环境并降低单任务成本,CPU向超多核架构演进,例如AMD Turin最高达192核,Intel Sierra Forest核心数可达144甚至288核[2][31] - 行业巨头验证:英伟达在新GB200架构中将CPU:GPU配比维持在1:2(传统架构约为1:4),并通过统一内存让GPU直接访问CPU内存,这系统性地确认了大内存CPU是承载海量KV Cache的最优容器[2][37];DeepSeek的Engram架构也将部分参数外置并由CPU调度,进一步强化了CPU作为AI系统记忆管理中枢的角色[40][41] 3. 相关公司 - 英特尔:管理层表示,为AI芯片配套的服务器CPU需求已供不应求,供给约束成为主要掣肘,若供给充足,数据中心收入将显著高于已披露水平[43] - AMD:数据中心业务增长强劲,由EPYC服务器CPU与Instinct AI GPU共同驱动,第五代EPYC(Turin)市场需求“非常强”[43] - 海光信息:产品路线向多核演进,在研的海光C86-5G迈入128核/512线程,并升级DDR5与CXL 2.0,设计对齐Agent时代“高并发、长任务、强隔离”的需求[45] - 澜起科技:受益于CPU平台迭代与带宽需求,其第二子代MRCD/MDB芯片(支持速率12800MT/s,比第一子代提升45%)在手订单金额已超过人民币1.4亿元,将推动MRDIMM渗透率提升[49][50]

半导体行业深度报告:AgenticAI时代的算力重构:CPU,从“旁观者”到“总指挥”的价值回归 - Reportify