Workflow
AI算力行业跟踪点评:英伟达RubinCPX:TCO与算力密度再进一步,揭示PCB/液冷、组装增量

行业投资评级 - 看好AI算力行业 [1] 核心观点 - Rubin CPX专为AI视频生成和软件开发等大规模上下文处理任务优化 通过Prefill-Decode分离架构显著降低推理成本 BOM成本或低至Rubin的1/4 [1][3] - 产品以单光罩尺寸提供20PFLOPS NVFP4稠密算力 配备128GB GDDR7内存 计划2026年底上市 [1][3] - 算力密度和集成复杂度提升驱动PCB/液冷/连接器增量机会 建议关注PCB/CCL 连接器 系统集成和液冷领域相关公司 [2][29] 技术规格与成本优化 - Rubin CPX采用单光罩尺寸设计 提供20PFLOPS NVFP4算力 相比Rubin双光罩33PFLOPS算力更专注计算优化 [1][3] - 内存配置从HBM转向GDDR7 容量128GB 每GB成本较HBM降低50% [2][10] - 采用FCBGA单die封装替代CoWoS 规避CoWoS成本上升和良率损失问题 [2][10] - 基于PCIe 6.0通过CX-9进行Scale-out 节约8000美元/GPU的NVLink扩展成本 [2][10] - 可集成到VR200 Oberon NVL144或作为独立机柜Scale-out运行 [1][3] 架构创新与性能提升 - Prefill-Decode分离架构将AI推理分为计算密集型Prefill和存储密集型Decode两个独立阶段 [4][8] - Prefill阶段并行处理所有输入token 计算KV Cache并生成首token 主要瓶颈为算力 [4][8] - Decode阶段顺序生成后续token 主要瓶颈为内存带宽 [4][7] - Rubin CPX作为Prefill专用硬件 增加算力并减少存力配置 实质性降低首token输出及KV Cache生成成本 [2][8] - 针对NVFP4格式优化 通过增加计算单元数量提升计算效率 [2][10] 硬件设计与增量机会 - VR200 CPX新增8个CPX 托盘内算力密度显著提升 驱动互联 供电及散热系统升级 [2][13] - 新增PCB正交中板连接HPM母板和CPX+NIC子板 通过升级CCL材料确保PCIe 6.0信号完整性 [2][14] - CX-9网卡移至托盘前部 缩短与OSFP端口距离 取消Overpass线缆 提高可维护性并减少空间占用 [2][19] - 功率密度提升导致散热方式从风冷升级为液冷 8块CPX合计TDP达7040W [2][23] - 上下两个CPX PCB共享液冷板 充分利用1U托盘高度及冷板双面空间实现最大计算密度 [2][23] 功耗对比分析 - VR200 NVL144 CPX平台单托盘总功率达17.2kW 显著高于GB200 NVL72的5.8kW和GB300 NVL72的6.6kW [25] - Rubin GPU TDP提升至2300W Blackwell Ultra为1400W [23][25] - Rubin CPX单芯片TDP为880W [23][25] 投资建议关注 - PCB/CCL增量: 胜宏科技 方正科技 鹏鼎控股 景旺电子 沪电股份 生益科技 菲利华 中材科技 宏和科技 东材科技 [2][29] - 连接器增量: 立讯精密 [2][29] - 集成复杂度提升: 工业富联 [2][29] - 液冷用量提升: 英维克 领益智造 比亚迪电子 [2][29]