核心观点 - 英伟达在GTC大会上发布了新一代GPU路线图,包括Blackwell Ultra、Vera Rubin和Feynman架构,展示了其在AI计算领域的持续创新 [2][7][13] - 公司预计2028年数据中心资本支出规模将突破1万亿美元,美国四大云端龙头已订购360万个Blackwell芯片 [1] - 黄仁勋强调AI计算正经历根本性变革,从文件检索转向Token生成,数据中心建设向加速计算发展 [43][44] Blackwell Ultra平台 - Blackwell Ultra提供288GB HBM3e内存,比原版Blackwell的192GB提升50% [3] - FP4计算能力比H100提升1.5倍,NVL72集群运行DeepSeek-R1 671B模型仅需10秒,而H100需要1.5分钟 [4] - 单个Ultra芯片提供20 petaflops AI性能,DGX GB300 Superpod集群拥有300TB内存和11.5 exaflops FP4计算能力 [3] - 适用于代理式AI和物理AI应用,可自主解决复杂多步骤问题和实时生成合成视频 [6] 性能对比 - B300在FP4 Tensor Dense/Sparse性能达15/30 petaflops,比B200的10/20 petaflops提升50% [4] - FP64 Tensor Dense性能达68 teraflops,比B200的45 teraflops提升51% [4] - 与Hopper一代相比,HGX B300 NVL16在大型语言模型推理速度提升11倍,计算能力提升7倍,内存增加4倍 [5] Vera Rubin架构 - 计划2026年下半年发布,包含Vera CPU和Rubin GPU,性能比Grace Blackwell显著提升 [7][9] - Vera CPU采用88个定制ARM内核,NVLink接口带宽1.8 TB/s,比Grace CPU快两倍 [8] - Rubin GPU提供1.2 ExaFLOPS FP8训练性能,是B300的3.3倍,内存带宽从8 TB/s提升至13 TB/s [9][10] - NVL144机架配置提供3.6 exaflops FP4推理能力,是Blackwell Ultra的3.3倍 [11] 硅光技术 - 公司计划在Quantum InfiniBand和Spectrum Ethernet交换机中部署共封装光学器件(CPO) [17] - CPO技术使信号噪声降低5.5倍,功率需求减少3.3倍,可连接GPU数量增加3倍 [25][26] - 首款Quantum-X CPO交换机将于2025年下半年推出,提供144个800Gb/s端口 [27] - Spectrum-X CPO交换机计划2026年下半年推出,最高支持512个800Gb/s端口 [28] 行业动态 - OpenAI计划建设容纳40万个AI芯片的数据中心,Meta计划2024年底拥有60万个H100等效计算能力 [29][30] - 公司股价在发布会后下跌3.4%,反映市场对竞争加剧的担忧 [31] - 谷歌、Meta和亚马逊都在开发自研AI芯片,行业竞争日趋激烈 [30] 未来路线图 - 2027年下半年推出Rubin Ultra,采用NVL576配置,提供15 exaflops FP4推理性能 [12] - 2028年计划推出Feynman架构,进一步推动AI计算性能边界 [13] - 黄仁勋预计数据中心建设投资将很快达到1万亿美元,加速计算成为转折点 [42][43]
下一代GPU发布,硅光隆重登场,英伟达还能火多久?