深度｜SemiAnalysis万字解析英伟达GTC 2025：为推理而生，从硅片到系统再到软件的推理优化，买得越多，赚得越多

文章核心观点 - AI计算竞赛中效率提升成影响市场格局关键变量，Nvidia硬件进步和软件优化推动推理成本下降，虽引发市场对AI硬件“供过于求”担忧，但符合“杰文斯悖论”，计算力普及将催生更多应用推高AI产业规模，Nvidia重新定义GPU计算经济学并开创行业标准 [1] AI模型进展与市场担忧 - AI模型进展速度加快，三个扩展定律叠加协同工作，今年GTC致力于解决新扩展范式，Nvidia专注提高推理成本以实现模型训练和部署，口号从“买得越多，省得越多”变为“省得越多，买得越多” [4] - 市场担忧软件优化和硬件改进致成本过高使AI硬件需求下降、市场供过于求，但随着智能价格下降和能力提升，对智能需求将无限增长，Nvidia提供数据支持杰文斯悖论 [5][6] 詹森数学规则 - 第一条规则是Nvidia总体FLOP以2:4稀疏度与密集FLOP表示，如H100的FP16的989.4 TFLOP被引用为1979.8 TFLOP [10] - 第二条规则是带宽以双向方式引用，如NVLink5传输和接收速度均为900GB/s，被引用为1.8TB/s [10] - 第三条规则是GPU数量根据封装中GPU芯片数量而非封装数量计算，从Rubin开始采用此命名法 [11] GPU和系统路线图布莱克韦尔Ultra B300 - B300以GPU形式出售，位于可装入口袋的SXM模块上，带Grace CPU和可装入口袋的BGA，与B200相比，FP4 FLOP密度高出50%以上，内存容量升级到每包288GB，带宽仍为8 TB/s [16] - B300 HGX版本现称B300 NVL16，将取代B200 HGX外形尺寸，采用16个封装和基板上的GPU芯片，封装技术采用CoWoS - L，16个GPU通过NVLink协议通信，不具备Astera Labs的重定时器，部分超大规模计算厂商将选PCIe交换机，还将引入CX - 8 NIC，网络速度提高一倍 [17][18] Rubin规格 - Rubin在台积电3nm上配备两个光罩大小计算芯片，两侧有I/O模块，提供50 PFLOP密集FP4计算能力，比B300一代提升三倍多，通过I/O芯片释放空间、采用3nm工艺、提高TDP和架构扩展等实现 [21] - Rubin再次使用Oberon机架架构，与Vera CPU配对，新机架有72个GPU封装但命名为VR200 NVL144，含144个计算芯片，Nvidia HBM容量保持288GB升级到HBM4，带宽达13TB/s，采用6代NVLink速度翻倍，NVSwitch ASIC聚合带宽翻倍 [24][25][26] Rubin Ultra规格 - Rubin Ultra性能提升显著，HBM堆栈从8个跃升至16个，计算面积和能力翻倍达100 PFLOP密集FP4，HBM容量达1024GB，系统有365 TB快速内存/第二层LPDDR，将引入Kyber Rack架构 [30][31][32] Kyber Rack架构 - 关键新功能是将机架旋转90度增加密度，NVL576配置下每个计算盒有一个R300 GPU和一个Vera CPU，PCB板背板取代铜缆背板，可能有VR300 NVL1,152变体，还将推出7代NVSwitch [33][35] 改进型指数硬件单元 - GPU中GEMM在张量核心执行，专注元素级指数计算的MUFU单元性能提升慢，在bf16 Hopper和FP8 Hopper上计算softmax存在问题，Blackwell Ultra重新设计SM并添加指令，MUFU单元性能提高2.5倍 [39][40][41] 推理堆栈和Dynamo - 去年GTC讨论GB200 NVL72比H200推理吞吐量提高15倍，今年Nvidia在硬件和软件领域加速推理吞吐量提升，Blackwell Ultra GB300 NVL72和Rubin一代网络升级提高推理吞吐量，软件领域推出Nvidia Dynamo [43][46] - Dynamo带来智能路由器、GPU规划器、改进的NCCL Collective推理、NIXL、NVMe KV - Cache卸载管理器等新功能，全面提升推理速度，使DeepSeek创新民主化，有助于个人复制和更高交互性部署 [47][49][60] AI总拥有成本 - Blackwell性能比Hopper高出68倍，成本降低87%，Rubin预计性能是Hopper的900倍，成本降低99.97%，Nvidia追求进步，建议生态系统优先部署下一代系统 [61][63] - 研究的H100租赁价格预测框架准确率达98%，结合多方面估计构建预测价格曲线 [64] CPO插入 - Nvidia宣布首款共封装光学(CPO)解决方案，部署在横向扩展交换机中，CPO降低功耗，可使网络扁平化一层，400k* GB200 NVL72部署从三层网络转两层网络可节省12%总集群功耗 [69][70] - 推出多款基于CPO的交换机，Quantum X - 800 3400的CPO版本2025年下半年推出，Spectrum - X交换机2026年下半年推出，长远看CPO可增加GPU扩展网络基数和聚合带宽 [73][75] 行业地位 - 尽管亚马逊Trainium芯片定价低，但Nvidia技术领先，新架构、机架结构、算法改进和CPO使其与竞争对手拉开差距，预计将继续领先 [76]