中金 | GTC 2026：推理时代已至，再绘AI硬件宏伟蓝图

核心观点 - AI推理正进入算力拐点，行业需求从“训练主导”向“推理驱动”范式转移，未来三年内推理所需算力有望实现10,000倍于ChatGPT初始版本的规模扩张 [1][6] - NVIDIA预测其数据中心业务收入将从2025-2026年的5,000亿美元跃升至2026-2027年的1万亿美元以上，增长源于AI推理需求的指数级增长及其全栈解决方案的深度渗透 [6][7] - AI硬件架构正从“单芯片堆算力”时代迈向面向推理场景的“系统级平台”时代，通过硬件异构、专芯专用和机柜协同来优化单位电力约束下的token产出，提升经济性 [7][28][31][33] AI推理范式与市场前景 - 由于模型尺寸、上下文长度及tokens生成扩展，AI推理需求进入指数级增长期，成为行业主要驱动力 [1][6] - NVIDIA认为，AI基础设施规划需从单一芯片升级为“整柜级”系统，并增加面向预填充与低延迟解码的协同解决方案 [1][7] - 在“Token经济学”框架下，平台化、异构化的硬件旨在提升客户投资回报率，AI算力硬件产业空间有望加速释放 [7] 芯片及存储：Vera Rubin平台与硬件异构 - Vera Rubin平台核心配置：采用“72 GPU + 36 CPU + NVLink 6 + CX9 + BF4 DPU”的硬件配置作为核心机柜，相比上一代产品，系统级能效提升4倍，推理吞吐/瓦最高提升10倍，并将成本降至十分之一 [4][8] - Vera CPU：采用88核Arm定制Olympus核心与“空间多线程”，支持最高1.5TB LPDDR5X内存，单芯片内存带宽1.2TB/s，并提供1.8TB/s NVLink‑C2C与GPU互联 [4][16] - BlueField-4 STX服务器：由CX9网卡、Vera CPU与BlueField-4 DPU构成，旨在构建面向AI的“内存池化”与智能调度系统，将分散的GPU显存和存储虚拟化为统一、低延迟的键值缓存池，服务于大模型推理 [11] - Rubin Ultra机柜：采用144 GPU（576 die）、1.5PB/s机柜互联带宽、正交背板+光互联、约600kW功耗，预计2027年下半年量产 [8] 专用推理加速：Groq 3 LPU/LPX - Groq 3 LPU核心参数：单颗集成500MB SRAM，片上带宽高达150TB/s，支持FP8推理，配备96条112Gbps C2C链路，定位为FP8专用推理加速器 [16] - Groq 3 LPX机架定位：作为Vera Rubin架构下的专用推理处理机架，总计256颗LPU，总片上SRAM 128GB，SRAM带宽40PB/s，scale-up带宽640TB/s，并拥有12TB DDR5内存作为容量补充 [21] - 系统分工逻辑：在推理任务中，Rubin GPU负责Prefill与Decode Attention阶段，而Groq 3 LPX专门负责Decode阶段中对时延敏感的FFN/MoE执行，实现负载的横向拆分与专芯专用 [28][29][30] - 互联方式：LPX机柜内部通过LPU C2C体系互联；与Vera Rubin机柜之间主要通过Spectrum-X以太网互联，转发介质可能为BlueField-4 DPU，未来可能通过NVLink Fusion Chiplet形式进一步整合 [21][22] - 经济性提升：Groq LPX与Vera Rubin联合设计后，相比Blackwell平台可实现每瓦吞吐量提升35倍、万亿参数模型的收入潜力提升10倍，同时Rubin平台本身将推理token成本最多降至Blackwell的1/10 [31] PCB：架构创新驱动市场增长 - 市场规模预测：预计2026年AI PCB市场规模达121.03亿美元（同比增长116%），2027年达224.64亿美元（同比增长86%）[35][45] - Rubin无线缆设计推动价值量提升：VR200 NVL72机柜采用全盲插、无线缆设计，将组装时间由2小时缩短至5分钟，单机柜PCB价值量约29.1万元，单GPU对应PCB价值量为4050元（约563美元），较GB300提升36% [36][39][40] - Groq LPU带来新增量：LPU采用海量节点堆叠，对PCB规格要求高，预计单LPU对应PCB价值量约200美元，其机柜与Rubin计算柜配套比预计为5:8 [41] - 正交背板应用：Rubin Ultra NVL576（Kyber架构）采用正交背板替代传统铜缆，预计单板价值量约3-4万美元，单柜价值量约12-16万美元，对应单GPU价值量约500美元 [42][44] 光互联：CPO技术趋势 - CPO技术量产：搭载CPO技术的Spectrum-X以太网交换机已实现全面量产，将光引擎与交换ASIC共封装，降低功耗与信号衰减 [47] - Scale up网络光铜混合：Rubin Ultra 576架构中，NVL72柜内使用铜线互连，在扩展为576超节点时通过Spectrum 6 CPO交换机（102.4Tb/s）连接；下一代Feynman平台计划在Switch Tray直接搭载NVLink 8 CPO交换芯片，光互连从机柜外延展至机柜内趋势明确 [4][48]