算力重构:从模型训练迈向推理主导的新时代
东方证券·2026-04-20 16:42

行业投资评级 - 对计算机行业评级为“看好”(维持) [5] 报告核心观点 - 算力结构正从模型训练主导转向推理主导,进入增长新周期 [2][7] - Agent(智能体)的普及和多模态交互将成为推动推理算力非线性爆发的核心引擎 [7][23] - 推理时代下,底层算力架构(CPU/GPU)、云服务商业模式及存储架构均面临重塑与创新 [7] 根据目录总结 一、从训练走向推理,算力步入增长新周期 - 训练算力增长放缓:大模型训练数据量增长放缓,训练成本抬升,边际效益递减,训练算力投入增长趋缓,进入“精耕细作”阶段 [10] - 推理算力需求崛起:全球人工智能总支出快速增长,Gartner预测2026年将达到2.53万亿美元,同比增长44% [14] 德勤报告预测,推理端工作负载占比将从2023年的约三分之一提升至2026年的约三分之二,算力结构向推理侧倾斜 [14] - 应用侧爆发动力:大模型能力在多项基准上已超越人类,拓展了应用边界 [16] 同时,推理成本出现断崖式下跌,例如达到GPT-3.5水平的模型推理成本大幅下降,部分国产模型实现了较两年前近百倍的性价比提升,有望刺激需求大规模爆发 [21] - 未来增长引擎:多模态交互使单次交互所需推理算力增加数十甚至上百倍 [23] Agent的普及将触发推理任务的连环反应,IDC预测中国企业活跃智能体数量将在2031年突破3.5亿,年复合增长率超135%,对应Token消耗年均超30倍的指数级跃升 [23] 二、推理时代,Agent爆发重构核心算力 - CPU价值重估:在Agent时代,处理高度分支化、I/O密集型任务时,CPU耗时在端到端延迟中占比峰值突破90%,性能成为关键制约 [27] CPU大容量内存成为承载海量KV缓存的最优选择,推动服务器向多核、大内存规格升级 [28] 产业端,英伟达计划在下一代架构中提升CPU核心配比,并投资云服务商以部署专为“代理式推理”设计的CPU [28][29] - GPU性能瓶颈转移:Agent带来推理需求的结构化增长,例如阶跃星辰Step 3.5 Flash在OpenClaw上的日调用量增长超20倍,MiniMax M2系列模型日均Token消耗量在2026年2月增至2025年12月的超过6倍 [31] GPU的性能瓶颈从算力峰值转向显存带宽,长上下文推理导致“显存墙”现象,算力利用率可能不足30%时显存已耗尽,高显存带宽的中高端推理卡需求激增 [32] - 云服务商业模式转型:商业模式从IaaS资源租赁向“MaaS(模型即服务)与Agent编排服务”跃迁,Serverless GPU和按Token/执行步数计费模式普及 [36] 竞争核心从算力规模转向工具链生态构建,国内云厂商(如百度、腾讯、阿里)激烈争夺“一键部署”OpenClaw等服务的流量入口 [37] 受AI Agent驱动及硬件成本增长影响,云服务涨价可能成为趋势,例如2026年3月阿里云部分AI算力产品价格上调5%-34% [38][39] 三、AI存储架构发生革新,数据处理迎来新范式 - 存储成为新瓶颈:在推理阶段,算力中心核心挑战从计算能力转向存储与带宽效率,KV缓存对存储架构提出新要求 [39][40] - 存储架构创新:英伟达在2026年CES推出ICMS(推理上下文内存平台),在存储层级中新增G3.5闪存层专门优化KV缓存管理,通过BlueField-4 DPU实现大容量与高速传输,单个机架总容量可达9600TB,传输速度达每秒200GB [46][49] 包括戴尔、HPE等十余家存储厂商参与构建基于此的下一代AI存储平台 [49] - 数据处理加速:英伟达推出的数据加速库cuDF和cuVS已被谷歌云、Azure、AWS等采用,其中cuDF可将数据处理速度提升高达5倍 [52] 国内星环科技与英伟达合作研发GPU数据库,在TPC-DS测试中,其性能较128vCore传统CPU提升约26倍 [55] 投资建议 - 算力进入推理时代,建议关注芯片(GPU/CPU)、云服务、IDC、服务器、数据库等算力链环节的标的 [3][59][61] - 报告列出了包括海光信息、寒武纪、首都在线、浪潮信息、中科曙光、星环科技等在内的具体公司参考 [7][61]

算力重构:从模型训练迈向推理主导的新时代 - Reportify