核心观点 - AI推理正进入算力拐点,行业需求从“训练主导”向“推理驱动”范式转移,未来三年内推理所需算力有望实现10,000倍于ChatGPT初始版本的规模扩张 [1][6] - NVIDIA预测其数据中心业务收入将从2025-2026年的5,000亿美元跃升至2026-2027年的1万亿美元以上,增长源于AI推理需求的指数级增长及其全栈解决方案的深度渗透 [6][7] - AI硬件架构正从“单芯片堆算力”时代迈向面向推理场景的“系统级平台”时代,通过硬件异构、专芯专用和机柜协同来优化单位电力约束下的token产出,提升经济性 [7][28][31][33] AI推理范式与市场前景 - 由于模型尺寸、上下文长度及tokens生成扩展,AI推理需求进入指数级增长期,成为行业主要驱动力 [1][6] - NVIDIA认为,AI基础设施规划需从单一芯片升级为“整柜级”系统,并增加面向预填充与低延迟解码的协同解决方案 [1][7] - 在“Token经济学”框架下,平台化、异构化的硬件旨在提升客户投资回报率,AI算力硬件产业空间有望加速释放 [7] 芯片及存储:Vera Rubin平台与硬件异构 - Vera Rubin平台核心配置:采用“72 GPU + 36 CPU + NVLink 6 + CX9 + BF4 DPU”的硬件配置作为核心机柜,相比上一代产品,系统级能效提升4倍,推理吞吐/瓦最高提升10倍,并将成本降至十分之一 [4][8] - Vera CPU:采用88核Arm定制Olympus核心与“空间多线程”,支持最高1.5TB LPDDR5X内存,单芯片内存带宽1.2TB/s,并提供1.8TB/s NVLink‑C2C与GPU互联 [4][16] - BlueField-4 STX服务器:由CX9网卡、Vera CPU与BlueField-4 DPU构成,旨在构建面向AI的“内存池化”与智能调度系统,将分散的GPU显存和存储虚拟化为统一、低延迟的键值缓存池,服务于大模型推理 [11] - Rubin Ultra机柜:采用144 GPU(576 die)、1.5PB/s机柜互联带宽、正交背板+光互联、约600kW功耗,预计2027年下半年量产 [8] 专用推理加速:Groq 3 LPU/LPX - Groq 3 LPU核心参数:单颗集成500MB SRAM,片上带宽高达150TB/s,支持FP8推理,配备96条112Gbps C2C链路,定位为FP8专用推理加速器 [16] - Groq 3 LPX机架定位:作为Vera Rubin架构下的专用推理处理机架,总计256颗LPU,总片上SRAM 128GB,SRAM带宽40PB/s,scale-up带宽640TB/s,并拥有12TB DDR5内存作为容量补充 [21] - 系统分工逻辑:在推理任务中,Rubin GPU负责Prefill与Decode Attention阶段,而Groq 3 LPX专门负责Decode阶段中对时延敏感的FFN/MoE执行,实现负载的横向拆分与专芯专用 [28][29][30] - 互联方式:LPX机柜内部通过LPU C2C体系互联;与Vera Rubin机柜之间主要通过Spectrum-X以太网互联,转发介质可能为BlueField-4 DPU,未来可能通过NVLink Fusion Chiplet形式进一步整合 [21][22] - 经济性提升:Groq LPX与Vera Rubin联合设计后,相比Blackwell平台可实现每瓦吞吐量提升35倍、万亿参数模型的收入潜力提升10倍,同时Rubin平台本身将推理token成本最多降至Blackwell的1/10 [31] PCB:架构创新驱动市场增长 - 市场规模预测:预计2026年AI PCB市场规模达121.03亿美元(同比增长116%),2027年达224.64亿美元(同比增长86%)[35][45] - Rubin无线缆设计推动价值量提升:VR200 NVL72机柜采用全盲插、无线缆设计,将组装时间由2小时缩短至5分钟,单机柜PCB价值量约29.1万元,单GPU对应PCB价值量为4050元(约563美元),较GB300提升36% [36][39][40] - Groq LPU带来新增量:LPU采用海量节点堆叠,对PCB规格要求高,预计单LPU对应PCB价值量约200美元,其机柜与Rubin计算柜配套比预计为5:8 [41] - 正交背板应用:Rubin Ultra NVL576(Kyber架构)采用正交背板替代传统铜缆,预计单板价值量约3-4万美元,单柜价值量约12-16万美元,对应单GPU价值量约500美元 [42][44] 光互联:CPO技术趋势 - CPO技术量产:搭载CPO技术的Spectrum-X以太网交换机已实现全面量产,将光引擎与交换ASIC共封装,降低功耗与信号衰减 [47] - Scale up网络光铜混合:Rubin Ultra 576架构中,NVL72柜内使用铜线互连,在扩展为576超节点时通过Spectrum 6 CPO交换机(102.4Tb/s)连接;下一代Feynman平台计划在Switch Tray直接搭载NVLink 8 CPO交换芯片,光互连从机柜外延展至机柜内趋势明确 [4][48]
中金 | GTC 2026:推理时代已至,再绘AI硬件宏伟蓝图