SemiAnalysis 重磅拆解:Blackwell架构全细节,英伟达从未公开的秘密
英伟达英伟达(US:NVDA) 硬AI·2026-04-02 09:52

Blackwell架构核心观点 - 知名半导体研究机构SemiAnalysis通过系统性微基准测试,首次公开了Blackwell架构在AI工作负载下的硬件性能上限数据[3] - 测试结果显示,Blackwell在张量核心吞吐量、内存子系统带宽及新型2SM MMA指令等关键维度上均接近理论峰值,但性能表现高度依赖指令形状配置,部分场景下存在明显的带宽瓶颈[3] - 研究揭示,Blackwell性能释放不取决于硬件上限,而取决于软件层面的精细调优与调度能力[2][3] 架构核心变化 - 从Hopper到Blackwell,英伟达引入了张量内存(TMEM)用于显式管理MMA累加器,改变了线程与计算结果之间的所有权关系[6] - tcgen05操作现在由单一线程代表整个CTA发出,而Hopper架构中以warp或warpgroup为单位发出[6] - 架构引入了TPC作用域的TMA和MMA,支持两个协同CTA跨SM对执行tcgen05.mma,共享操作数,从而在降低每个CTA共享内存带宽需求的同时,提供更高运算强度[6] - 架构原生支持带微缩放的亚字节数据类型,并引入了集群启动控制(CLC)作为持久化CTA内核中动态工作调度的硬件支持[6] 芯片物理布局 - SemiAnalysis通过逆向工程揭示B200芯片采用双Die物理拓扑结构,两组SM之间的平均L2访问延迟差距超过300个时钟周期,对应两个Die之间的跨Die访问惩罚[8][9] - 研究推断B200的Die级TPC分布不均,Die A各GPC分别包含10、10、10、9个TPC,Die B各GPC分别包含9、9、9、5+3个TPC[10] - 物理布局差异意味着,即便逻辑配置相同的两块GPU,其物理SM分布也可能不同,构成潜在的性能非确定性来源[10] 内存子系统性能 - 异步拷贝指令LDGSTS的内存吞吐量在32 KiB在途字节时饱和,峰值约为6.6 TB/s,16字节加载在相同在途字节数下略优于8字节加载[12] - LDGSTS基线延迟约为600纳秒,在途字节超过8 KiB后延迟接近翻倍,原因在于大量线程因MIO节流而停滞[13] - 显式TMA多播可完美消除L2流量,实现理想的“1/集群大小”L2字节比,隐式多播在有效内存吞吐量上与之相当,但在超过64字节在途数据后,L2缓存流量削减效果开始下降[14] - TMA达到峰值吞吐量明显晚于LDGSTS,在低于32字节在途数据时异步拷贝吞吐量略优于TMA,超过该阈值后TMA追上并可持续扩展至128 KiB[15] 张量核心性能 - Blackwell MMA性能对指令形状高度敏感,对于1SM MMA,M=64的配置最高仅能达到理论峰值的50%,而M=128可接近100%[18] - 对于2SM MMA,M=128在N=64时吞吐量为峰值的90%,其余N尺寸均接近100%,M=256则在所有配置下均维持接近100%的峰值吞吐量[18] - 当两个输入矩阵均存储于共享内存(SS模式)时,M=128在N<128时存在明显的SMEM带宽瓶颈,所有数据类型均存在这一规律[20] - 2SM MMA实现了完美的弱扩展,相对于1SM MMA在使用两倍计算资源时获得2倍加速,在SS模式的小形状配置下,由于操作数B在两个SM间分片,甚至出现超过2倍的加速[20] - 研究结论明确:应始终使用给定SMEM tile尺寸下可用的最大指令形状,以获得最高吞吐量[20] - 在典型内核使用的1至4条在途MMA指令场景下,4条在途MMA的吞吐量上限约为理论峰值的78%至80%,且1SM MMA比2SM MMA高出约5个百分点[22]

SemiAnalysis 重磅拆解:Blackwell架构全细节,英伟达从未公开的秘密 - Reportify