再谈NV的下一个Mellanox：GroqLPU的整合

报告投资评级 - 行业评级：科技增持 (维持) [1] - 重点公司评级：英伟达 (NVDA US) 投资评级为“买入”，目标价310.00美元 [2][47] 报告核心观点 - 报告认为，英伟达整合Groq的战略与2020年收购Mellanox一脉相承，核心在于吸收人才及将领先的底层IP内生化，以补齐架构短板[3][8] - 2026年或为Agentic AI的元年，产业范式正从以吞吐为核心的模型训练阶段，转向以低时延为核心的代理AI部署阶段[3][10] - 英伟达在确立大模型训练阶段的领先地位后，正通过整合Groq进一步定义AI下半场的架构规则，同时掌握训练和代理AI部署两种范式下的核心架构能力，建立双重平台的技术壁垒[3][10][14] - 整合的最终形态并非独立的LPU机架，而是将Groq的LPU架构及其确定性、低时延计算能力深度纳入英伟达未来的GPU路线图（如Feynman架构）及CUDA软件栈中[3][4][9] 技术整合路径与架构设计硬件整合：Feynman架构与LPU的深度融合 - 整合载体：预计自Feynman架构起，Groq的LPU将被纳入英伟达GPU路线图。Feynman预计采用台积电A16（1.6nm）制程，其背面供电设计为垂直堆叠高密度集成创造条件[4][17] - 封装形态：Feynman+LPU的封装将从当前2.5D平面布局转向基于SoIC技术的3D Chiplet架构。LPU Chiplet（集成SRAM）预计通过混合键合与Feynman计算Die面对面堆叠，通过TSV实现垂直互连[25][26] - 时间节点：预计Feynman有望于2028年推出，时间节点与代理AI商业化拐点大致重合[4] - 短期产品：作为权宜之计，英伟达可能在GTC 2026上先推出一款独立的机架级LPU推理集群（或命名LPX），与Rubin GPU机架并行部署[9][16] 存储与互连设计 - 存储层级：LPU将引入一层高速SRAM存储层，其作用是一个超低时延的“工作缓冲层”。Groq LPU搭载230MB SRAM，带宽高达80TB/s，专为代理AI Chain-of-Thought推理优化[4][12][15][26] - HBM角色：HBM与LPU SRAM是功能互补关系，并非替代。HBM预计仍维持现有布局[25][26] - 互连扩展：Groq的RealScale互连在约576颗芯片规模时将面临确定性性能的物理上限。通过将LPU封装于Feynman内部，英伟达有望绕开此限制，使确定性执行层直接继承NVLink的扩展能力[4][29][30] 软件生态整合：CUDA与GroqWare的融合 - 整合预计分三层推进：[5][39] 1. 编译器层面：将GroqWare的静态调度能力纳入CUDA编译流程。 2. 运行时层面：通过TensorRT作为调度桥梁，自动识别低时延代理AI推理负载并分发至LPU执行。 3. 生态层面：以标准CUDA纳入LPU能力，使现有深度学习框架无需修改即可调用相关算力。 - 战略意义在于确保英伟达在Agentic AI推理范式演进中持续巩固生态壁垒，不给其他替代体系留下切入空间[43] LPU的性能优势与应用场景 - 核心价值：LPU并非面向所有推理任务，其结构性优势主要体现在低时延、具有人机交互属性的代理AI场景。在这类场景中，核心瓶颈在于低时延约束下的内存带宽，而非计算吞吐[6][34] - 关键约束场景：优势集中体现在自回归解码阶段，特别是在低批次、强时延约束的在线服务场景。当Batch Size很小时，GPU并行能力无法充分发挥，系统瓶颈转向内存带宽[6][35] - 具体应用场景：[36][37] 1. 实时语音AI：如云端语音接口、实时翻译，要求极短响应时间，LPU的高带宽、低时延及确定性执行模型能降低时延抖动风险。 2. 高并发、低批量推理：企业级持续在线的代理AI部署，需同时承载成千上万条并发会话，LPU在不同并发数量下可维持稳定的确定性吞吐，更契合“低批量、高并发”特征。 - 性能对比：在HBM3E约8 TB/s带宽条件下，低批量场景易出现内存瓶颈；而LPU通过片上SRAM实现约80 TB/s带宽，可从架构层面消除权重调取间的空闲间隙[35] 投资逻辑与公司展望 - 战略定位：英伟达正通过整合Groq，布局AI“下半场”（Agentic推理），旨在奠定Agentic AI时代的技术标准[44] - 财务表现：英伟达FY26Q4营收681亿美元（同比+73%），数据中心营收623亿美元（同比+75%）。公司指引FY27Q1营收780亿美元（±2%）[48] - 盈利预测：报告上调了英伟达FY27-28E的营收及净利润预测，并给予33倍 FY27E市盈率，得出目标价310美元[48]