文章核心观点 - AI计算竞赛中效率提升成影响市场格局关键变量,Nvidia硬件进步和软件优化推动推理成本下降,虽引发市场对AI硬件“供过于求”担忧,但符合“杰文斯悖论”,计算力普及将催生更多应用推高AI产业规模,Nvidia重新定义GPU计算经济学并开创行业标准 [1] AI模型进展与市场担忧 - AI模型进展速度加快,三个扩展定律叠加协同工作,今年GTC致力于解决新扩展范式,Nvidia专注提高推理成本以实现模型训练和部署,口号从“买得越多,省得越多”变为“省得越多,买得越多” [4] - 市场担忧软件优化和硬件改进致成本过高使AI硬件需求下降、市场供过于求,但随着智能价格下降和能力提升,对智能需求将无限增长,Nvidia提供数据支持杰文斯悖论 [5][6] 詹森数学规则 - 第一条规则是Nvidia总体FLOP以2:4稀疏度与密集FLOP表示,如H100的FP16的989.4 TFLOP被引用为1979.8 TFLOP [10] - 第二条规则是带宽以双向方式引用,如NVLink5传输和接收速度均为900GB/s,被引用为1.8TB/s [10] - 第三条规则是GPU数量根据封装中GPU芯片数量而非封装数量计算,从Rubin开始采用此命名法 [11] GPU和系统路线图 布莱克韦尔Ultra B300 - B300以GPU形式出售,位于可装入口袋的SXM模块上,带Grace CPU和可装入口袋的BGA,与B200相比,FP4 FLOP密度高出50%以上,内存容量升级到每包288GB,带宽仍为8 TB/s [16] - B300 HGX版本现称B300 NVL16,将取代B200 HGX外形尺寸,采用16个封装和基板上的GPU芯片,封装技术采用CoWoS - L,16个GPU通过NVLink协议通信,不具备Astera Labs的重定时器,部分超大规模计算厂商将选PCIe交换机,还将引入CX - 8 NIC,网络速度提高一倍 [17][18] Rubin规格 - Rubin在台积电3nm上配备两个光罩大小计算芯片,两侧有I/O模块,提供50 PFLOP密集FP4计算能力,比B300一代提升三倍多,通过I/O芯片释放空间、采用3nm工艺、提高TDP和架构扩展等实现 [21] - Rubin再次使用Oberon机架架构,与Vera CPU配对,新机架有72个GPU封装但命名为VR200 NVL144,含144个计算芯片,Nvidia HBM容量保持288GB升级到HBM4,带宽达13TB/s,采用6代NVLink速度翻倍,NVSwitch ASIC聚合带宽翻倍 [24][25][26] Rubin Ultra规格 - Rubin Ultra性能提升显著,HBM堆栈从8个跃升至16个,计算面积和能力翻倍达100 PFLOP密集FP4,HBM容量达1024GB,系统有365 TB快速内存/第二层LPDDR,将引入Kyber Rack架构 [30][31][32] Kyber Rack架构 - 关键新功能是将机架旋转90度增加密度,NVL576配置下每个计算盒有一个R300 GPU和一个Vera CPU,PCB板背板取代铜缆背板,可能有VR300 NVL1,152变体,还将推出7代NVSwitch [33][35] 改进型指数硬件单元 - GPU中GEMM在张量核心执行,专注元素级指数计算的MUFU单元性能提升慢,在bf16 Hopper和FP8 Hopper上计算softmax存在问题,Blackwell Ultra重新设计SM并添加指令,MUFU单元性能提高2.5倍 [39][40][41] 推理堆栈和Dynamo - 去年GTC讨论GB200 NVL72比H200推理吞吐量提高15倍,今年Nvidia在硬件和软件领域加速推理吞吐量提升,Blackwell Ultra GB300 NVL72和Rubin一代网络升级提高推理吞吐量,软件领域推出Nvidia Dynamo [43][46] - Dynamo带来智能路由器、GPU规划器、改进的NCCL Collective推理、NIXL、NVMe KV - Cache卸载管理器等新功能,全面提升推理速度,使DeepSeek创新民主化,有助于个人复制和更高交互性部署 [47][49][60] AI总拥有成本 - Blackwell性能比Hopper高出68倍,成本降低87%,Rubin预计性能是Hopper的900倍,成本降低99.97%,Nvidia追求进步,建议生态系统优先部署下一代系统 [61][63] - 研究的H100租赁价格预测框架准确率达98%,结合多方面估计构建预测价格曲线 [64] CPO插入 - Nvidia宣布首款共封装光学(CPO)解决方案,部署在横向扩展交换机中,CPO降低功耗,可使网络扁平化一层,400k* GB200 NVL72部署从三层网络转两层网络可节省12%总集群功耗 [69][70] - 推出多款基于CPO的交换机,Quantum X - 800 3400的CPO版本2025年下半年推出,Spectrum - X交换机2026年下半年推出,长远看CPO可增加GPU扩展网络基数和聚合带宽 [73][75] 行业地位 - 尽管亚马逊Trainium芯片定价低,但Nvidia技术领先,新架构、机架结构、算法改进和CPO使其与竞争对手拉开差距,预计将继续领先 [76]
深度|SemiAnalysis万字解析英伟达GTC 2025:为推理而生,从硅片到系统再到软件的推理优化,买得越多,赚得越多