Workflow
物理人工智能
icon
搜索文档
解读英伟达的最新GPU路线图
半导体行业观察· 2025-03-20 09:19
高科技公司路线图的重要性 - 高科技公司通常拥有技术路线图以向关键投资者和客户展示未来技术发展路径 [1] - 路线图可降低技术规划和采用风险 尤其在芯片制造难度加大的市场环境中 [1] - 部分公司如Oracle、Nvidia和AMD曾通过公开路线图展示技术迭代计划 [2] Nvidia的技术路线图战略 - Nvidia通过公开路线图向超大规规模客户展示其持续领先的技术开发能力 [2] - 路线图涵盖GPU、CPU、纵向扩展网络和横向扩展网络等多领域技术 [3] - 公司未将Quantum系列InfiniBand交换机纳入路线图 因AI领域更倾向以太网解决方案 [4] Blackwell系列GPU技术细节 - Blackwell B100/B200 GPU实际发布于2023年 而非路线图标注的2024年 [5] - B300 GPU内存容量提升50%至288GB FP4性能提升50%达15千万亿次浮点运算 [7] - GB300 NVL72系统FP4推理性能达1100 petaflops FP8训练性能360 petaflops 计划2025年下半年上市 [7] ConnectX系列网络技术进展 - ConnectX-8 SmartNIC速度达800Gb/秒 是前代ConnectX-7的两倍 计划2024年推出 [8] - 2028年将推出ConnectX-10 NIC 速度进一步提升至3.2Tb/秒 [18] Vera Rubin架构创新 - 2026年推出的Vera CV100 Arm处理器采用88核设计 支持同步多线程至176线程 [8] - NVLink C2C带宽翻倍至1.8TB/秒 与Blackwell GPU的NVLink 5匹配 [8] - Rubin R100 GPU配备288GB HBM4内存 带宽提升62.5%至13TB/秒 [9][10] 机架级系统性能飞跃 - VR300 NVL144系统FP4性能达50千万亿次浮点运算 是GB200系统的5倍 [13] - 2027年Rubin Ultra GPU将集成4个芯片于单插槽 FP4性能100 petaflops 配备1TB HBM4E内存 [14] - VR300 NVL576系统采用Kyber液冷机架设计 推理性能达15百亿亿次浮点运算 是当前系统的21倍 [16][17] 未来技术规划 - 2028年"费曼"GPU将搭配Vera CPU和3.2Tb/秒ConnectX-10 NIC [18] - 路线图显示Nvidia将持续提升NVSwitch带宽 2028年达7.2TB/秒 [18] - 公司通过系统级创新保持AI计算领域的技术领先地位 [19]
下一代GPU发布,硅光隆重登场,英伟达还能火多久?
半导体行业观察· 2025-03-19 08:54
核心观点 - 英伟达在GTC大会上发布了新一代GPU路线图,包括Blackwell Ultra、Vera Rubin和Feynman架构,展示了其在AI计算领域的持续创新 [2][7][13] - 公司预计2028年数据中心资本支出规模将突破1万亿美元,美国四大云端龙头已订购360万个Blackwell芯片 [1] - 黄仁勋强调AI计算正经历根本性变革,从文件检索转向Token生成,数据中心建设向加速计算发展 [43][44] Blackwell Ultra平台 - Blackwell Ultra提供288GB HBM3e内存,比原版Blackwell的192GB提升50% [3] - FP4计算能力比H100提升1.5倍,NVL72集群运行DeepSeek-R1 671B模型仅需10秒,而H100需要1.5分钟 [4] - 单个Ultra芯片提供20 petaflops AI性能,DGX GB300 Superpod集群拥有300TB内存和11.5 exaflops FP4计算能力 [3] - 适用于代理式AI和物理AI应用,可自主解决复杂多步骤问题和实时生成合成视频 [6] 性能对比 - B300在FP4 Tensor Dense/Sparse性能达15/30 petaflops,比B200的10/20 petaflops提升50% [4] - FP64 Tensor Dense性能达68 teraflops,比B200的45 teraflops提升51% [4] - 与Hopper一代相比,HGX B300 NVL16在大型语言模型推理速度提升11倍,计算能力提升7倍,内存增加4倍 [5] Vera Rubin架构 - 计划2026年下半年发布,包含Vera CPU和Rubin GPU,性能比Grace Blackwell显著提升 [7][9] - Vera CPU采用88个定制ARM内核,NVLink接口带宽1.8 TB/s,比Grace CPU快两倍 [8] - Rubin GPU提供1.2 ExaFLOPS FP8训练性能,是B300的3.3倍,内存带宽从8 TB/s提升至13 TB/s [9][10] - NVL144机架配置提供3.6 exaflops FP4推理能力,是Blackwell Ultra的3.3倍 [11] 硅光技术 - 公司计划在Quantum InfiniBand和Spectrum Ethernet交换机中部署共封装光学器件(CPO) [17] - CPO技术使信号噪声降低5.5倍,功率需求减少3.3倍,可连接GPU数量增加3倍 [25][26] - 首款Quantum-X CPO交换机将于2025年下半年推出,提供144个800Gb/s端口 [27] - Spectrum-X CPO交换机计划2026年下半年推出,最高支持512个800Gb/s端口 [28] 行业动态 - OpenAI计划建设容纳40万个AI芯片的数据中心,Meta计划2024年底拥有60万个H100等效计算能力 [29][30] - 公司股价在发布会后下跌3.4%,反映市场对竞争加剧的担忧 [31] - 谷歌、Meta和亚马逊都在开发自研AI芯片,行业竞争日趋激烈 [30] 未来路线图 - 2027年下半年推出Rubin Ultra,采用NVL576配置,提供15 exaflops FP4推理性能 [12] - 2028年计划推出Feynman架构,进一步推动AI计算性能边界 [13] - 黄仁勋预计数据中心建设投资将很快达到1万亿美元,加速计算成为转折点 [42][43]