一文拆解英伟达Rubin CPX：首颗专用AI推理芯片到底强在哪？

产品发布与性能 - 英伟达发布新一代Rubin CPX GPU 专为海量上下文AI处理设计支持百万级token推理于2025年9月9日推出[5] - 单卡算力达30 PFLOPS（NVFP4精度）配备128GB GDDR7显存硬件编解码引擎使长序列注意力加速提升3倍单卡可在1秒内完成百万token级推理[2][5] - 采用分工策略：Rubin CPX（GDDR）负责预填充（prefill）阶段 Rubin HBM GPU负责解码（decode）阶段优化算力与内存带宽利用率[9][10][12] 架构创新与成本优势 - 核心创新为用GDDR7替代HBM 内存成本降低5倍/GB 同时省去NVLink接口每GPU节省约8000美元[12] - 芯片成本仅为R200的1/4 但提供80%算力整机TCO在预填充场景下从每小时0.6美元降至0.06美元降幅达90%[12][13] - 通过专用芯片分工（prefill与decode分离）实现算力极致优化后续可能推出解码专用芯片进一步降低成本[16] 系统性能与对比优势 - 搭载Rubin CPX的Vera Rubin机架处理大上下文窗口性能比GB300 NVL72高6.5倍提供8EFLOPS（NVFP4精度）算力 100TB内存及1.7PB/s带宽[14][20] - 机柜集成144个Rubin CPX GPU、144个Rubin GPU及36个Vera CPU 采用Oberon方案每个compute tray含8个CPX芯片及8个CX-9网卡[20] - 对比竞争对手：AMD MI300机架带宽20.5TB/s但需追赶到2027年谷歌TPU缺预填充专用芯片 AWS Trainium受限于EFA网卡需外挂机架其他厂商自研芯片需18个月流片[20] 产业链影响：PCB与光模块 - PCB需求新增：CPX芯片需专用PCB（预计HDI方案） Rubin模组与CPX间采用44层正交中板替代线缆材料可能升级为M9+二代布+四代铜[24][27][28] - 英伟达单GPU PCB价值量从GB200的400美元提升至VR200的900美元预计2025-2027年PCB总市场规模达131/289/707亿元人民币[29] - 光模块配置提升：每个compute tray配8个CX-9网卡（推测1.6T端口） Rubin NVL144光模块配比较GB300翻倍因单die带宽提升至800G[30][32][37] - 2026年全球1.6T光模块需求上调至1500万只 2027年预计达4000-5000万只推理步骤解耦推动单托盘GPU数量增加进一步带动光模块需求[35][36][37] 电源与散热升级 - 整机功耗从180-200kW提升至350kW 推动供电架构向直流化/高压化演进：800V HVDC替代传统UPS 二次侧电源升级至800V-50V[39][40] - 液冷与电源需求增长国内供应商如中恒电气（HVDC龙头）、科士达（北美代工）、盛弘股份（模块开发）等积极布局海外市场[41][42][43] 技术规格与路线图 - Rubin CPX采用N3P制程单芯片功耗800W（带内存880W）无NVLink 仅支持PCIe Gen6接口[12][17] - 对比路线图：Rubin CPX算力20PFLOPS（稠密）内存带宽2TB/s 而R200带宽20.5TB/s Rubin Ultra内存带宽达53TB/s（2027年）[7][12][17]