Prefill and decode phases - 财报，业绩电话会，研报，新闻

Prefill and decode phases

搜索文档

2025-09-11 20:11

**行业与公司** * 纪要涉及英伟达（Nvidia）及其新发布的Rubin CPX专用加速器以及AMD、谷歌TPU、AWS Trainium、Meta MTAv等竞争对手[3][5][6] * 行业聚焦于人工智能加速器特别是推理（inference）阶段的预填充（prefill）和解码（decode）硬件优化[3][4][7] **核心观点与论据** * 英伟达推出Rubin CPX 一款专为推理预填充阶段优化的单芯片GPU 其设计强调计算FLOPS而非内存带宽通过使用成本更低的GDDR7内存（128GB容量 2TB/s带宽）替代昂贵的HBM 显著降低了成本（内存成本降低至R200的20% 整体BOM成本降至R200的25%）[3][7][9][17][22] * Rubin CPX提供20 PFLOPS的FP4密集计算能力而双芯片R200提供25.2 PFLOPS密集计算和20.5TB/s HBM带宽但CPX在预填充阶段能实现更高的计算资源利用率[9][10][19] * 新架构将Vera Rubin机架级服务器扩展为三种配置：VR200 NVL144（纯R200 GPU）、VR200 NVL144 CPX（混合R200和CPX GPU）、Vera Rubin CPX双机架（独立CPX机架）其中CPX双机架提供2,880 PFLOPS密集计算和288TB/s GDDR7带宽[11][28][33] * 预填充阶段主要受计算能力约束（FLOPS密集型）解码阶段受内存带宽约束使用通用硬件（如R200）处理预填充会导致昂贵的HBM带宽利用率极低（仅0.7%）造成资源浪费（每小时TCO浪费$0.90）而CPX专用于预填充可减少浪费（TCO浪费降至$0.16/小时）[14][57][59][70] * 英伟达的机架系统设计优势扩大（Oberon架构）采用无电缆设计、液冷（100%液冷覆盖率）和更高功率预算（VR NVL144 CPX达370kW）而竞争对手（如AMD MI300X）在机架规模设计和软件生态上仍需追赶[5][6][26][101] **其他重要内容** * 技术细节：Rubin CPX采用单芯片SoC设计无需CoWoS封装通过PCIe Gen6 x16连接（带宽128GB/s）而非NVLink 其TDP估计为800W[17][21][22][39] * 市场影响：CPX的推出可能降低HBM在系统BOM中的占比（因GDDR7成本更低）但解码阶段仍依赖HBM 因此HBM需求可能因总AI计算量增长而抵消[71][73][76] * 竞争格局：AMD、谷歌、AWS、Meta等竞争对手需重新规划产品路线图开发各自的预填充专用芯片以保持竞争力否则将在推理能效和TCO上落后[6][92][94][100] * 成本分析：Rubin CPX的相对BOM成本仅为R200的25% 但提供其60%的计算能力使英伟达能在提升性能的同时提高利润率[22][109] * 架构创新：Vera Rubin机架采用模块化子卡设计集成CX-9 NIC（800G）、BlueField-4 DPU和PCIe中背板（midplane）替代电缆提升可靠性和密度[36][37][49] **潜在风险与机会** * 风险：专用硬件（如CPX）可能缺乏灵活性若工作负载变化（如预填充与解码比例调整）固定配置的机架（如VR NVL144 CPX）可能无法优化[90] * 机会：预填充专用芯片可大幅降低推理成本（如DeepSeek V3模型推理中通信需求仅需PCIe Gen6 无需NVLink）推动AI推理需求增长[79][84][85]

英伟达(US:NVDA)

Disaggregated serving

Prefill and decode phases

Disaggregated serving

Prefill and decode phases