Workflow
英伟达H100 SXM5
icon
搜索文档
英伟达最强GPU:B200详解解读
半导体行业观察· 2025-12-18 09:02
英伟达Blackwell B200 GPU架构与性能分析 - 英伟达推出新一代顶级计算GPU Blackwell B200,放弃了传统的单芯片设计,转而采用两个光罩大小的芯片,在软件层面被视为一个独立的GPU,成为公司首款芯片级GPU [1] - 每个B200芯片物理上包含80个流式多处理器(SM),但每个芯片支持74个SM,因此整个GPU共有148个SM,时钟频率与H100的高功率SXM5版本相似 [1] - 与上一代H100 SXM5相比,B200的功耗目标为1000W(H100为700W),采用台积电4NP制程,配备288 GB HBM3E显存,带宽高达8 TB/s [2] 缓存与内存子系统 - B200的L1缓存/共享内存容量与H100相同,为256 KB,开发者可通过CUDA API调整L1缓存与共享内存的分配比例 [4] - B200的L2缓存容量大幅提升至126 MB,而H100为50 MB,A100为40 MB,直接连接到同一L2分区的延迟约为150纳秒 [7] - 从单线程角度看,B200表现类似三级缓存架构,其L2缓存的分区特性很可能对应于其两个芯片,跨芯片延迟增加很小 [8] - 与AMD MI300X相比,英伟达的L1缓存容量更大、速度更快,但AMD的L2缓存延迟更低,且拥有256 MB末级缓存,实现了低延迟和高容量的结合 [9] 内存带宽与延迟表现 - B200的显存带宽为8 TB/s,显著高于H100的3.3 TB/s和AMD MI300X的5.3 TB/s [2][23] - 在L2带宽测试中,B200在本地L2分区内带宽可达21 TB/s,当数据在两个分区间传输时,带宽下降至16.8 TB/s [20] - B200的VRAM延迟似乎高于MI300X以及更早的H100和A100,但延迟回归的程度并不严重,表明其多芯片设计运行良好 [10] - B200在共享内存延迟方面表现出色,访问速度比测试过的任何AMD GPU都要快,包括RDNA系列的高频型号 [12] 计算吞吐量与原子操作 - SM数量的增加使B200在大多数向量运算中拥有比H100更高的计算吞吐量,但FP16运算是个例外,B200不能以FP32两倍的速度执行FP16运算 [30] - AMD的MI300X能进行双倍速率的FP16计算,其强大的运算能力在大多数向量运算方面远超H100和B200 [32] - B200的每个SM每个周期可以执行32次原子加法操作,而AMD CDNA3计算单元每个周期可以执行16次原子加法,这使得B200尽管核心数量较少,却依然能够胜出 [16] - 在全局内存原子操作吞吐量上,B200芯片每个周期可以支持GPU上近512次此类操作,而AMD的MI300A芯片在这项测试中表现不佳 [30] 张量内存与AI优化 - Blackwell引入了张量内存(TMEM),类似于专用于张量核心的寄存器文件,其组织结构为512列 x 128行,每个单元格为32位,每个SM子分区都有一个512列 x 32行的TMEM分区 [34][35] - TMEM容量为64 KB,与AMD CDNA架构上的累加器寄存器文件(Acc VGPR)容量相同,但TMEM的实现更加完善和成熟,采用了动态分配方案 [35] - 引入TMEM有助于降低常规寄存器文件的容量和带宽压力,Blackwell的CTA级矩阵指令每个周期、每个分区可以支持1024次16位MAC操作 [38] - 与AMD CDNA架构相比,TMEM的源矩阵可以来自共享内存或TMEM自身,而CDNA的MFMA指令源矩阵可以来自常规或Acc VGPRs [36] 实际应用基准测试 - 在FluidX3D基准测试中,B200充分发挥了其显存带宽优势,性能超越了MI300X,该测试采用256x256x256单元配置,FP32模式下需要1.5 GB内存,访问模式对缓存不友好 [42] - 当使用IEEE FP16格式进行存储时,AMD的MI300A在FluidX3D测试中略有进步,但仍然远胜于B200 [45] - 在FP64性能方面,B200的基本FP64运算速度为FP32的一半,远超消费级GPU,在自行编写的基准测试中表现优于消费级GPU和H100,但MI300X凭借其庞大体积依然显露优势 [40] 多芯片架构与竞争格局 - 与AMD的MI300X(采用12芯片设计)相比,英伟达的双芯片策略显得较为保守,但软件无需考虑多芯片架构,是H100和A100的直接继任者 [51] - AMD即将推出的MI350X预计将把显存带宽提升至8 TB/s,在B200已经领先的领域迎头赶上 [51] - 英伟达的优势在于其CUDA软件生态系统,GPU计算代码通常首先针对英伟达GPU编写,硬件只需足够优秀以阻止竞争对手填补CUDA的“护城河” [54] - 英伟达保守的硬件策略给AMD留下了机会,像MI300X这样的GPU展现了AMD实现高难度设计目标的能力,其是否能在硬件上挑战英伟达的软件主导地位值得关注 [57] 测试中遇到的问题 - 在数周的测试中,遇到了三次GPU挂起问题,表现为GPU进程卡死,任何尝试使用系统八个GPU中任何一个的进程都会挂起,只有重启系统才能恢复GPU功能 [47] - 内核消息显示,Nvidia统一内存内核模块(nvidia_uvm)在禁用抢占的情况下获取了锁,可能导致软件死锁 [47][48] - `nvidia-smi`提供了重置GPU的选项,但如果GPU正在使用中就无法生效,这违背了提供重置选项的初衷,希望英伟达能提供无需重启系统即可解决问题的方法 [48][49]