Workflow
Agentic LLM推理
icon
搜索文档
未知机构:申万计算机国产算力思考260322第四期从GTC的架构之变看云厂对算力-20260323
未知机构· 2026-03-23 10:05
**关键要点总结** **涉及的行业与公司** * 行业:人工智能算力 云计算 半导体 * 公司:英伟达 (NVIDIA) 云厂商 (如可能涉及Claude、OpenAI的云服务) **核心观点与论据** * **GTC大会核心变化是引入LPU** 其设计目标是为满足Agentic LLM推理对极低延迟的需求 采用完全确定性编译和静态SRAM保障数据读取确定性[1] * **英伟达采用A-F-D分离架构** 实现算力端解耦 LPU负责解码阶段的FFN计算 (特别是MoE计算) 而GPU负责Prefill和解码的Attention计算 使各部分承担最适合的职能[1][2] * **供需不对称是云服务涨价的持续动力** 供给端半导体产能增长是二次幂 而需求增长是指数型 由大模型机制决定 例如chatbot算力需求与(用户数*用户粘性)的平方成正比[3] * **新推理系统满足云厂对ROI的追求** A-F-D分离方案帮助云厂商精打细算[3] * **未来云厂商可能继续解耦趋势** 将计算、存储、网络拆开售卖 例如单独购买存储柜存放KVCache 或购买计算柜运行FFN[4][5] * **芯片职能将越来越细分** 针对搜索广告推荐、LLM推理、Agent推理、多模态推理等不同场景推出专用芯片[5] * **能效(PUE)成为关键竞争要素** 算力端将全面普及液冷技术 更低的PUE能在涨价潮中获得更高利润率[6] **其他重要内容** * **云厂商是最大客户** 在Claudecode、Openclaw等应用出现后 需求持续爆发[2] * **需求指数增长的具体驱动** Agent/多模态算力需求是chatbot需求乘以多轮调用次数和(图像像素数*视频帧数)因子[3]