GPU Architecture

搜索文档
深挖英伟达Blackwell
半导体行业观察· 2025-06-30 09:52
Nvidia Blackwell架构核心特点 - 采用750平方毫米巨型芯片设计,集成922亿个晶体管,拥有192个流多处理器(SM) [1] - GB202芯片的SM与GPC比例为1:16,相比前代Ada Lovelace的1:12比例可更低成本增加SM数量 [5] - 取消了子通道切换机制,允许在同一队列中混合不同类型工作负载,提高着色器阵列填充效率 [8] - 采用128位固定长度指令和两级指令缓存设计,L1指令缓存容量提升至约128KB [7][10] - 每个SM分区可跟踪12个波段,寄存器文件容量保持64KB/分区不变 [16] 性能参数对比 - RTX PRO 6000 Blackwell配置188个SM,96GB GDDR7显存,理论带宽1.8TB/s,功耗600W [2] - 相比RTX 5090(170个SM)和AMD RX 9070(28个WGP),在核心数量和显存带宽上具有明显优势 [2][21] - FP32执行流水线重组为32位宽设计,可同时处理INT32和FP32操作避免卡顿 [18] - 每个SM分区每周期可执行16次INT32乘法,是AMD RDNA4的两倍 [18] - 光线追踪性能提升,每个SM的光线三角形相交测试速率提高一倍 [23] 内存子系统 - 采用128KB SM级存储块设计,可在L1缓存和共享内存间灵活分配 [25] - L2缓存延迟130ns,带宽8.7TB/s,相比前代Ada Lovelace有所增加 [49][53] - 显存延迟329ns,L2命中延迟约200ns,略逊于AMD RDNA4的254ns [52] - 总计拥有24MB L1/共享内存容量,是AMD RX 9070(6MB)的四倍 [35] - 地址生成效率优于AMD,单条指令即可完成数组索引转换 [37] 行业竞争格局 - 在高端消费市场缺乏直接竞争对手,AMD RDNA4和Intel Battlemage定位中端 [61] - RTX PRO 6000的FP32吞吐量接近AMD MI300X数据中心GPU [62] - 采用"大核心+高带宽"双重策略,同时增加SM数量和显存带宽 [62] - 芯片面积和功耗达到消费级GPU极限(750mm²/600W) [62] - 尽管面临L2性能等挑战,但凭借规模优势保持市场领先地位 [63][64]