再谈NV的下一个Mellanox:GroqLPU的整合

报告投资评级 - 行业评级:科技 增持 (维持) [1] - 重点公司评级:英伟达 (NVDA US) 投资评级为“买入”,目标价310.00美元 [2][47] 报告核心观点 - 报告认为,英伟达整合Groq的战略与2020年收购Mellanox一脉相承,核心在于吸收人才及将领先的底层IP内生化,以补齐架构短板[3][8] - 2026年或为Agentic AI的元年,产业范式正从以吞吐为核心的模型训练阶段,转向以低时延为核心的代理AI部署阶段[3][10] - 英伟达在确立大模型训练阶段的领先地位后,正通过整合Groq进一步定义AI下半场的架构规则,同时掌握训练和代理AI部署两种范式下的核心架构能力,建立双重平台的技术壁垒[3][10][14] - 整合的最终形态并非独立的LPU机架,而是将Groq的LPU架构及其确定性、低时延计算能力深度纳入英伟达未来的GPU路线图(如Feynman架构)及CUDA软件栈中[3][4][9] 技术整合路径与架构设计 硬件整合:Feynman架构与LPU的深度融合 - 整合载体:预计自Feynman架构起,Groq的LPU将被纳入英伟达GPU路线图。Feynman预计采用台积电A16(1.6nm)制程,其背面供电设计为垂直堆叠高密度集成创造条件[4][17] - 封装形态:Feynman+LPU的封装将从当前2.5D平面布局转向基于SoIC技术的3D Chiplet架构。LPU Chiplet(集成SRAM)预计通过混合键合与Feynman计算Die面对面堆叠,通过TSV实现垂直互连[25][26] - 时间节点:预计Feynman有望于2028年推出,时间节点与代理AI商业化拐点大致重合[4] - 短期产品:作为权宜之计,英伟达可能在GTC 2026上先推出一款独立的机架级LPU推理集群(或命名LPX),与Rubin GPU机架并行部署[9][16] 存储与互连设计 - 存储层级:LPU将引入一层高速SRAM存储层,其作用是一个超低时延的“工作缓冲层”。Groq LPU搭载230MB SRAM,带宽高达80TB/s,专为代理AI Chain-of-Thought推理优化[4][12][15][26] - HBM角色:HBM与LPU SRAM是功能互补关系,并非替代。HBM预计仍维持现有布局[25][26] - 互连扩展:Groq的RealScale互连在约576颗芯片规模时将面临确定性性能的物理上限。通过将LPU封装于Feynman内部,英伟达有望绕开此限制,使确定性执行层直接继承NVLink的扩展能力[4][29][30] 软件生态整合:CUDA与GroqWare的融合 - 整合预计分三层推进:[5][39] 1. 编译器层面:将GroqWare的静态调度能力纳入CUDA编译流程。 2. 运行时层面:通过TensorRT作为调度桥梁,自动识别低时延代理AI推理负载并分发至LPU执行。 3. 生态层面:以标准CUDA纳入LPU能力,使现有深度学习框架无需修改即可调用相关算力。 - 战略意义在于确保英伟达在Agentic AI推理范式演进中持续巩固生态壁垒,不给其他替代体系留下切入空间[43] LPU的性能优势与应用场景 - 核心价值:LPU并非面向所有推理任务,其结构性优势主要体现在低时延、具有人机交互属性的代理AI场景。在这类场景中,核心瓶颈在于低时延约束下的内存带宽,而非计算吞吐[6][34] - 关键约束场景:优势集中体现在自回归解码阶段,特别是在低批次、强时延约束的在线服务场景。当Batch Size很小时,GPU并行能力无法充分发挥,系统瓶颈转向内存带宽[6][35] - 具体应用场景:[36][37] 1. 实时语音AI:如云端语音接口、实时翻译,要求极短响应时间,LPU的高带宽、低时延及确定性执行模型能降低时延抖动风险。 2. 高并发、低批量推理:企业级持续在线的代理AI部署,需同时承载成千上万条并发会话,LPU在不同并发数量下可维持稳定的确定性吞吐,更契合“低批量、高并发”特征。 - 性能对比:在HBM3E约8 TB/s带宽条件下,低批量场景易出现内存瓶颈;而LPU通过片上SRAM实现约80 TB/s带宽,可从架构层面消除权重调取间的空闲间隙[35] 投资逻辑与公司展望 - 战略定位:英伟达正通过整合Groq,布局AI“下半场”(Agentic推理),旨在奠定Agentic AI时代的技术标准[44] - 财务表现:英伟达FY26Q4营收681亿美元(同比+73%),数据中心营收623亿美元(同比+75%)。公司指引FY27Q1营收780亿美元(±2%)[48] - 盈利预测:报告上调了英伟达FY27-28E的营收及净利润预测,并给予33倍 FY27E市盈率,得出目标价310美元[48]