Agentic LLM推理 - 财报，业绩电话会，研报，新闻 - Reportify

Agentic LLM推理

搜索文档

未知机构：申万计算机国产算力思考260322第四期从GTC的架构之变看云厂对算力-20260323

未知机构· 2026-03-23 10:05

**关键要点总结** **涉及的行业与公司** * 行业：人工智能算力云计算半导体 * 公司：英伟达 (NVIDIA) 云厂商 (如可能涉及Claude、OpenAI的云服务) **核心观点与论据** * **GTC大会核心变化是引入LPU** 其设计目标是为满足Agentic LLM推理对极低延迟的需求采用完全确定性编译和静态SRAM保障数据读取确定性[1] * **英伟达采用A-F-D分离架构** 实现算力端解耦 LPU负责解码阶段的FFN计算 (特别是MoE计算) 而GPU负责Prefill和解码的Attention计算使各部分承担最适合的职能[1][2] * **供需不对称是云服务涨价的持续动力** 供给端半导体产能增长是二次幂而需求增长是指数型由大模型机制决定例如chatbot算力需求与(用户数*用户粘性)的平方成正比[3] * **新推理系统满足云厂对ROI的追求** A-F-D分离方案帮助云厂商精打细算[3] * **未来云厂商可能继续解耦趋势** 将计算、存储、网络拆开售卖例如单独购买存储柜存放KVCache 或购买计算柜运行FFN[4][5] * **芯片职能将越来越细分** 针对搜索广告推荐、LLM推理、Agent推理、多模态推理等不同场景推出专用芯片[5] * **能效(PUE)成为关键竞争要素** 算力端将全面普及液冷技术更低的PUE能在涨价潮中获得更高利润率[6] **其他重要内容** * **云厂商是最大客户** 在Claudecode、Openclaw等应用出现后需求持续爆发[2] * **需求指数增长的具体驱动** Agent/多模态算力需求是chatbot需求乘以多轮调用次数和(图像像素数*视频帧数)因子[3]

英伟达(US:NVDA)

Agentic LLM推理

PUE（能效比）

大模型Attention机制

Agentic LLM推理

PUE（能效比）

大模型Attention机制