英伟达将Groq LPU技术纳入Rubin平台 - 英伟达在GTC大会上宣布推出Nvidia Groq 3 LPU芯片,并将其正式纳入下一代AI数据中心平台Vera Rubin体系,作为核心推理加速组件 [1][2] - Groq 3 LPU成为Rubin平台的第七个核心构建模块,其他六个模块分别是Rubin GPU、Vera CPU、NVLink 6扩展交换机、ConnectX 9智能网卡、Bluefield 4数据处理单元以及Spectrum-X扩展交换机 [2] LPU技术架构与优势 - Groq 3 LPU采用500MB SRAM作为工作内存,与主流AI加速器依赖HBM不同 [3] - 其SRAM带宽高达150TB/s,远超Rubin GPU所配备的HBM4的22TB/s带宽 [3] - 这种超高带宽设计对AI解码等带宽敏感操作具有显著优势,尤其适用于需要大批量、低延迟、高交互性输出的前沿AI模型推理场景 [3] 供应链预测与增长驱动 - 知名分析师郭明錤供应链调查指出,英伟达入股Groq后,LPU出货量预测已大幅上调 [1][4] - 预计2026至2027年LPU合计出货量将达400至500万台,较历史年产量实现约10倍以上的数量级增长 [1][4] - 其中2026年出货量预计占总量的30%至40%,2027年占60%至70% [4] - 增长的核心驱动力有两点:一是LPU与英伟达CUDA生态的深度整合大幅降低了开发门槛;二是AI代理、实时消费端应用及物理AI等超低延迟推理场景需求的快速扩张 [1][5] 机架架构与量产计划 - 英伟达计划将每机架的LPU单元密度从64个提升至256个,以维持超低延迟并应对长上下文推理带来的KV缓存需求扩张 [4] - 采用新架构的机架预计将于2026年第四季度至2027年第一季度进入大规模量产 [4] - 机架出货量预计将从2026年的300至500台,跃升至2027年的15,000至20,000台 [4] 生态整合与技术节点 - LPU需求的快速增长根本上源于其与英伟达生态系统的深度绑定,与CUDA的整合使开发者无需重构现有工作流即可调用LPU算力 [5] - 有三个关键的技术整合节点将决定LPU规模化落地的速度与深度 [5] - 第一是网络架构层面,需关注机架级互连能否通过NVLink Fusion和RealScale实现顺畅对接 [5] - 第二是开发者接口层面,需关注Nvidia NIM能否让开发者在不区分GPU与LPU的情况下直接部署工作负载 [5] - 第三是编译器层面,需关注TensorRT-LLM能否支持LPU的“先编译”架构 [5] 对PCB供应链的影响 - LPU/LPX机架的规模化量产将对PCB供应链产生重大影响 [1][6] - 这代表了M9级CCL(覆铜板)材料的首次大规模商业部署,该材料对制造工艺要求极高,涉及石英玻璃织物处理高层数板的技术突破 [6] - WUS印制电路(WUS Printed Circuit)在这一供应链中扮演关键角色,有望成为核心受益标的 [1][6] - 若LPU/LPX机架顺利放量,不仅将对WUS公司2027年业绩产生实质性贡献,更可能验证其高端制造技术能力,进而催化整个PCB行业开启新一轮增长周期 [6]
郭明錤:融入英伟达生态,LPU产量将暴增10倍,对PCB供应链有重大影响