算力重构：从模型训练迈向推理主导的新时代

行业投资评级 - 对计算机行业评级为“看好”（维持） [5] 报告核心观点 - 算力结构正从模型训练主导转向推理主导，进入增长新周期 [2][7] - Agent（智能体）的普及和多模态交互将成为推动推理算力非线性爆发的核心引擎 [7][23] - 推理时代下，底层算力架构（CPU/GPU）、云服务商业模式及存储架构均面临重塑与创新 [7] 根据目录总结一、从训练走向推理，算力步入增长新周期 - 训练算力增长放缓：大模型训练数据量增长放缓，训练成本抬升，边际效益递减，训练算力投入增长趋缓，进入“精耕细作”阶段 [10] - 推理算力需求崛起：全球人工智能总支出快速增长，Gartner预测2026年将达到2.53万亿美元，同比增长44% [14] 德勤报告预测，推理端工作负载占比将从2023年的约三分之一提升至2026年的约三分之二，算力结构向推理侧倾斜 [14] - 应用侧爆发动力：大模型能力在多项基准上已超越人类，拓展了应用边界 [16] 同时，推理成本出现断崖式下跌，例如达到GPT-3.5水平的模型推理成本大幅下降，部分国产模型实现了较两年前近百倍的性价比提升，有望刺激需求大规模爆发 [21] - 未来增长引擎：多模态交互使单次交互所需推理算力增加数十甚至上百倍 [23] Agent的普及将触发推理任务的连环反应，IDC预测中国企业活跃智能体数量将在2031年突破3.5亿，年复合增长率超135%，对应Token消耗年均超30倍的指数级跃升 [23] 二、推理时代，Agent爆发重构核心算力 - CPU价值重估：在Agent时代，处理高度分支化、I/O密集型任务时，CPU耗时在端到端延迟中占比峰值突破90%，性能成为关键制约 [27] CPU大容量内存成为承载海量KV缓存的最优选择，推动服务器向多核、大内存规格升级 [28] 产业端，英伟达计划在下一代架构中提升CPU核心配比，并投资云服务商以部署专为“代理式推理”设计的CPU [28][29] - GPU性能瓶颈转移：Agent带来推理需求的结构化增长，例如阶跃星辰Step 3.5 Flash在OpenClaw上的日调用量增长超20倍，MiniMax M2系列模型日均Token消耗量在2026年2月增至2025年12月的超过6倍 [31] GPU的性能瓶颈从算力峰值转向显存带宽，长上下文推理导致“显存墙”现象，算力利用率可能不足30%时显存已耗尽，高显存带宽的中高端推理卡需求激增 [32] - 云服务商业模式转型：商业模式从IaaS资源租赁向“MaaS（模型即服务）与Agent编排服务”跃迁，Serverless GPU和按Token/执行步数计费模式普及 [36] 竞争核心从算力规模转向工具链生态构建，国内云厂商（如百度、腾讯、阿里）激烈争夺“一键部署”OpenClaw等服务的流量入口 [37] 受AI Agent驱动及硬件成本增长影响，云服务涨价可能成为趋势，例如2026年3月阿里云部分AI算力产品价格上调5%-34% [38][39] 三、AI存储架构发生革新，数据处理迎来新范式 - 存储成为新瓶颈：在推理阶段，算力中心核心挑战从计算能力转向存储与带宽效率，KV缓存对存储架构提出新要求 [39][40] - 存储架构创新：英伟达在2026年CES推出ICMS（推理上下文内存平台），在存储层级中新增G3.5闪存层专门优化KV缓存管理，通过BlueField-4 DPU实现大容量与高速传输，单个机架总容量可达9600TB，传输速度达每秒200GB [46][49] 包括戴尔、HPE等十余家存储厂商参与构建基于此的下一代AI存储平台 [49] - 数据处理加速：英伟达推出的数据加速库cuDF和cuVS已被谷歌云、Azure、AWS等采用，其中cuDF可将数据处理速度提升高达5倍 [52] 国内星环科技与英伟达合作研发GPU数据库，在TPC-DS测试中，其性能较128vCore传统CPU提升约26倍 [55] 投资建议 - 算力进入推理时代，建议关注芯片（GPU/CPU）、云服务、IDC、服务器、数据库等算力链环节的标的 [3][59][61] - 报告列出了包括海光信息、寒武纪、首都在线、浪潮信息、中科曙光、星环科技等在内的具体公司参考 [7][61]