全球算力芯片参数汇总

核心观点 - AI大模型能力快速提升推动算力芯片需求增长，全球主要厂商在制程、晶体管密度、算力峰值、显存及互联带宽等指标上展开竞争 [2] - 英伟达Blackwell系列在算力、能效比和互联带宽保持领先，国产芯片在制裁背景下加速自主技术突破 [10][14][26] 算力指标制程 - 海外：英伟达Blackwell采用台积电4NP(4nm高性能版)，谷歌TPU v7p和亚马逊Trainium3采用3nm最先进制程 [3] - 中国大陆：受制裁前主要采用台积电7nm，现转向中芯国际7nm，燧原科技采用GlobalFoundries 12nm [4] 晶体管密度 - 英伟达B200通过Chiplet技术实现1600mm²芯片面积，密度130百万/mm²，谷歌TPU v7p密度达308百万/mm²为行业最高 [6] - 华为910C采用双Die设计，FP16算力较910B提升2倍以上，燧原邃思2.0芯片面积达3306mm²为国内最大AI单芯片 [7] 理论算力峰值 - 英伟达GB200 FP16算力5000TFLOPS较H200提升5倍，首次支持FP4数据类型直接处理 [10] - 华为910C FP16算力781TFLOPS为国产最高，壁仞BR100达1024TFLOPS但因制裁无法量产 [12] 能效比 - 英伟达GB200能效比1.9 TFLOPS/W行业领先，国产芯片普遍低于1，华为910B达1.2，壁仞BR104达1.7 [14][15] 显存指标 - 英伟达GB200配备HBM3e显存，带宽16TB/s、容量384GB为H200三倍，H20/H800因合规性显存性能大幅缩减 [18] - 国产芯片受限于制裁主要采用HBM2e，华为910C带宽3.2TB/s、容量128GB对标H200 [19] 互联带宽 - 英伟达NVLink5带宽达1800GB/s，H20采用NVLink4带宽900GB/s仍显著优于国产芯片 [26] - 华为910C采用HCCS 3.0带宽700GB/s接近NVLink4，寒武纪MLU-Link达600GB/s [27]