Disaggregated serving

搜索文档
又一次巨大飞跃: The Rubin CPX 专用加速器与机框 - 半导体分析
2025-09-11 20:11
**行业与公司** * 纪要涉及英伟达(Nvidia)及其新发布的Rubin CPX专用加速器 以及AMD、谷歌TPU、AWS Trainium、Meta MTAv等竞争对手[3][5][6] * 行业聚焦于人工智能加速器 特别是推理(inference)阶段的预填充(prefill)和解码(decode)硬件优化[3][4][7] **核心观点与论据** * 英伟达推出Rubin CPX 一款专为推理预填充阶段优化的单芯片GPU 其设计强调计算FLOPS而非内存带宽 通过使用成本更低的GDDR7内存(128GB容量 2TB/s带宽)替代昂贵的HBM 显著降低了成本(内存成本降低至R200的20% 整体BOM成本降至R200的25%)[3][7][9][17][22] * Rubin CPX提供20 PFLOPS的FP4密集计算能力 而双芯片R200提供25.2 PFLOPS密集计算和20.5TB/s HBM带宽 但CPX在预填充阶段能实现更高的计算资源利用率[9][10][19] * 新架构将Vera Rubin机架级服务器扩展为三种配置:VR200 NVL144(纯R200 GPU)、VR200 NVL144 CPX(混合R200和CPX GPU)、Vera Rubin CPX双机架(独立CPX机架) 其中CPX双机架提供2,880 PFLOPS密集计算和288TB/s GDDR7带宽[11][28][33] * 预填充阶段主要受计算能力约束(FLOPS密集型) 解码阶段受内存带宽约束 使用通用硬件(如R200)处理预填充会导致昂贵的HBM带宽利用率极低(仅0.7%) 造成资源浪费(每小时TCO浪费$0.90) 而CPX专用于预填充可减少浪费(TCO浪费降至$0.16/小时)[14][57][59][70] * 英伟达的机架系统设计优势扩大(Oberon架构) 采用无电缆设计、液冷(100%液冷覆盖率)和更高功率预算(VR NVL144 CPX达370kW) 而竞争对手(如AMD MI300X)在机架规模设计和软件生态上仍需追赶[5][6][26][101] **其他重要内容** * 技术细节:Rubin CPX采用单芯片SoC设计 无需CoWoS封装 通过PCIe Gen6 x16连接(带宽128GB/s) 而非NVLink 其TDP估计为800W[17][21][22][39] * 市场影响:CPX的推出可能降低HBM在系统BOM中的占比(因GDDR7成本更低) 但解码阶段仍依赖HBM 因此HBM需求可能因总AI计算量增长而抵消[71][73][76] * 竞争格局:AMD、谷歌、AWS、Meta等竞争对手需重新规划产品路线图 开发各自的预填充专用芯片以保持竞争力 否则将在推理能效和TCO上落后[6][92][94][100] * 成本分析:Rubin CPX的相对BOM成本仅为R200的25% 但提供其60%的计算能力 使英伟达能在提升性能的同时提高利润率[22][109] * 架构创新:Vera Rubin机架采用模块化子卡设计 集成CX-9 NIC(800G)、BlueField-4 DPU和PCIe中背板(midplane)替代电缆 提升可靠性和密度[36][37][49] **潜在风险与机会** * 风险:专用硬件(如CPX)可能缺乏灵活性 若工作负载变化(如预填充与解码比例调整) 固定配置的机架(如VR NVL144 CPX)可能无法优化[90] * 机会:预填充专用芯片可大幅降低推理成本(如DeepSeek V3模型推理中 通信需求仅需PCIe Gen6 无需NVLink) 推动AI推理需求增长[79][84][85]
NVIDIA Dynamo Open-Source Library Accelerates and Scales AI Reasoning Models
Globenewswire· 2025-03-19 02:17
文章核心观点 - NVIDIA推出开源推理软件Dynamo,可加速和扩展AI推理模型,以最低成本和最高效率运行AI工厂,提高推理性能并降低成本,增加代币收入 [1][3] 产品介绍 - Dynamo是NVIDIA Triton Inference Server™的继任者,可协调和加速跨数千个GPU的推理通信,采用分离式服务优化大语言模型处理和生成阶段,确保GPU资源最大利用率 [3] - 同一数量GPU下,Dynamo使运行Llama模型的AI工厂性能和收入翻倍,运行DeepSeek - R1模型时每GPU生成代币数量提升超30倍 [4] - 具备动态调整GPU、定位特定GPU、卸载推理数据等功能,可提高吞吐量并降低成本 [5] - 完全开源,支持多种框架,可让企业、初创公司和研究人员开发和优化AI模型服务方式,加速AI推理采用 [6] 应用案例 - 映射推理系统内存知识,将新推理请求路由到匹配GPU,避免重复计算,释放GPU响应新请求 [7] - Perplexity AI期待利用Dynamo增强分布式服务能力,提高推理服务效率,满足新AI推理模型计算需求 [8] - Cohere计划用Dynamo为其Command系列模型提供代理AI功能,认为其有助于为企业客户提供优质用户体验 [8][9] - 支持分离式服务,将大语言模型不同计算阶段分配到不同GPU,适用于新NVIDIA Llama Nemotron模型家族,可提高吞吐量和响应速度 [9] - Together AI计划将其推理引擎与Dynamo集成,实现推理工作负载跨GPU节点无缝扩展,动态解决模型管道各阶段流量瓶颈 [10] 关键创新 - GPU Planner:动态添加和移除GPU,适应波动的用户需求,避免GPU过度或供应不足 [14] - Smart Router:引导请求跨大型GPU集群,减少重复或重叠请求的GPU重新计算,释放GPU响应新请求 [14] - Low - Latency Communication Library:支持先进的GPU到GPU通信,抽象异构设备数据交换复杂性,加速数据传输 [14] - Memory Manager:智能地将推理数据卸载和重新加载到低成本内存和存储设备,不影响用户体验 [15] 产品可用性 - 将在NVIDIA NIM™微服务中提供,并在未来版本的NVIDIA AI Enterprise软件平台中得到支持,具备生产级安全、支持和稳定性 [15]