核心观点 - AI大模型能力快速提升推动算力芯片需求增长,全球主要厂商在制程、晶体管密度、算力峰值、显存及互联带宽等指标上展开竞争 [2] - 英伟达Blackwell系列在算力、能效比和互联带宽保持领先,国产芯片在制裁背景下加速自主技术突破 [10][14][26] 算力指标 制程 - 海外:英伟达Blackwell采用台积电4NP(4nm高性能版),谷歌TPU v7p和亚马逊Trainium3采用3nm最先进制程 [3] - 中国大陆:受制裁前主要采用台积电7nm,现转向中芯国际7nm,燧原科技采用GlobalFoundries 12nm [4] 晶体管密度 - 英伟达B200通过Chiplet技术实现1600mm²芯片面积,密度130百万/mm²,谷歌TPU v7p密度达308百万/mm²为行业最高 [6] - 华为910C采用双Die设计,FP16算力较910B提升2倍以上,燧原邃思2.0芯片面积达3306mm²为国内最大AI单芯片 [7] 理论算力峰值 - 英伟达GB200 FP16算力5000TFLOPS较H200提升5倍,首次支持FP4数据类型直接处理 [10] - 华为910C FP16算力781TFLOPS为国产最高,壁仞BR100达1024TFLOPS但因制裁无法量产 [12] 能效比 - 英伟达GB200能效比1.9 TFLOPS/W行业领先,国产芯片普遍低于1,华为910B达1.2,壁仞BR104达1.7 [14][15] 显存指标 - 英伟达GB200配备HBM3e显存,带宽16TB/s、容量384GB为H200三倍,H20/H800因合规性显存性能大幅缩减 [18] - 国产芯片受限于制裁主要采用HBM2e,华为910C带宽3.2TB/s、容量128GB对标H200 [19] 互联带宽 - 英伟达NVLink5带宽达1800GB/s,H20采用NVLink4带宽900GB/s仍显著优于国产芯片 [26] - 华为910C采用HCCS 3.0带宽700GB/s接近NVLink4,寒武纪MLU-Link达600GB/s [27]
全球算力芯片参数汇总