英伟达B200 GPU
搜索文档
英伟达最强GPU:B200详解解读
半导体行业观察· 2025-12-18 09:02
英伟达Blackwell B200 GPU架构与性能分析 - 英伟达推出新一代顶级计算GPU Blackwell B200,放弃了传统的单芯片设计,转而采用两个光罩大小的芯片,在软件层面被视为一个独立的GPU,成为公司首款芯片级GPU [1] - 每个B200芯片物理上包含80个流式多处理器(SM),但每个芯片支持74个SM,因此整个GPU共有148个SM,时钟频率与H100的高功率SXM5版本相似 [1] - 与上一代H100 SXM5相比,B200的功耗目标为1000W(H100为700W),采用台积电4NP制程,配备288 GB HBM3E显存,带宽高达8 TB/s [2] 缓存与内存子系统 - B200的L1缓存/共享内存容量与H100相同,为256 KB,开发者可通过CUDA API调整L1缓存与共享内存的分配比例 [4] - B200的L2缓存容量大幅提升至126 MB,而H100为50 MB,A100为40 MB,直接连接到同一L2分区的延迟约为150纳秒 [7] - 从单线程角度看,B200表现类似三级缓存架构,其L2缓存的分区特性很可能对应于其两个芯片,跨芯片延迟增加很小 [8] - 与AMD MI300X相比,英伟达的L1缓存容量更大、速度更快,但AMD的L2缓存延迟更低,且拥有256 MB末级缓存,实现了低延迟和高容量的结合 [9] 内存带宽与延迟表现 - B200的显存带宽为8 TB/s,显著高于H100的3.3 TB/s和AMD MI300X的5.3 TB/s [2][23] - 在L2带宽测试中,B200在本地L2分区内带宽可达21 TB/s,当数据在两个分区间传输时,带宽下降至16.8 TB/s [20] - B200的VRAM延迟似乎高于MI300X以及更早的H100和A100,但延迟回归的程度并不严重,表明其多芯片设计运行良好 [10] - B200在共享内存延迟方面表现出色,访问速度比测试过的任何AMD GPU都要快,包括RDNA系列的高频型号 [12] 计算吞吐量与原子操作 - SM数量的增加使B200在大多数向量运算中拥有比H100更高的计算吞吐量,但FP16运算是个例外,B200不能以FP32两倍的速度执行FP16运算 [30] - AMD的MI300X能进行双倍速率的FP16计算,其强大的运算能力在大多数向量运算方面远超H100和B200 [32] - B200的每个SM每个周期可以执行32次原子加法操作,而AMD CDNA3计算单元每个周期可以执行16次原子加法,这使得B200尽管核心数量较少,却依然能够胜出 [16] - 在全局内存原子操作吞吐量上,B200芯片每个周期可以支持GPU上近512次此类操作,而AMD的MI300A芯片在这项测试中表现不佳 [30] 张量内存与AI优化 - Blackwell引入了张量内存(TMEM),类似于专用于张量核心的寄存器文件,其组织结构为512列 x 128行,每个单元格为32位,每个SM子分区都有一个512列 x 32行的TMEM分区 [34][35] - TMEM容量为64 KB,与AMD CDNA架构上的累加器寄存器文件(Acc VGPR)容量相同,但TMEM的实现更加完善和成熟,采用了动态分配方案 [35] - 引入TMEM有助于降低常规寄存器文件的容量和带宽压力,Blackwell的CTA级矩阵指令每个周期、每个分区可以支持1024次16位MAC操作 [38] - 与AMD CDNA架构相比,TMEM的源矩阵可以来自共享内存或TMEM自身,而CDNA的MFMA指令源矩阵可以来自常规或Acc VGPRs [36] 实际应用基准测试 - 在FluidX3D基准测试中,B200充分发挥了其显存带宽优势,性能超越了MI300X,该测试采用256x256x256单元配置,FP32模式下需要1.5 GB内存,访问模式对缓存不友好 [42] - 当使用IEEE FP16格式进行存储时,AMD的MI300A在FluidX3D测试中略有进步,但仍然远胜于B200 [45] - 在FP64性能方面,B200的基本FP64运算速度为FP32的一半,远超消费级GPU,在自行编写的基准测试中表现优于消费级GPU和H100,但MI300X凭借其庞大体积依然显露优势 [40] 多芯片架构与竞争格局 - 与AMD的MI300X(采用12芯片设计)相比,英伟达的双芯片策略显得较为保守,但软件无需考虑多芯片架构,是H100和A100的直接继任者 [51] - AMD即将推出的MI350X预计将把显存带宽提升至8 TB/s,在B200已经领先的领域迎头赶上 [51] - 英伟达的优势在于其CUDA软件生态系统,GPU计算代码通常首先针对英伟达GPU编写,硬件只需足够优秀以阻止竞争对手填补CUDA的“护城河” [54] - 英伟达保守的硬件策略给AMD留下了机会,像MI300X这样的GPU展现了AMD实现高难度设计目标的能力,其是否能在硬件上挑战英伟达的软件主导地位值得关注 [57] 测试中遇到的问题 - 在数周的测试中,遇到了三次GPU挂起问题,表现为GPU进程卡死,任何尝试使用系统八个GPU中任何一个的进程都会挂起,只有重启系统才能恢复GPU功能 [47] - 内核消息显示,Nvidia统一内存内核模块(nvidia_uvm)在禁用抢占的情况下获取了锁,可能导致软件死锁 [47][48] - `nvidia-smi`提供了重置GPU的选项,但如果GPU正在使用中就无法生效,这违背了提供重置选项的初衷,希望英伟达能提供无需重启系统即可解决问题的方法 [48][49]
异构AI系统正在成为主流,业内呼吁构建“混合算力”技术护城河
第一财经· 2025-12-17 18:12
混合算力集群成为行业共识 - 混合算力集群已成为行业追求极致性价比的必然技术选项,而去年年初建设混合万卡算力还是一种权衡[1] - 从“能不混就不混”的主流观点,转变为混合算力已成为行业共识[3] - 随着对算力需求的不断增长,算力混用是未来不可阻挡的趋势,预计异构(算力混用)的比例会越来越高[6] 构建异构算力调度的技术护城河 - 构建“异构算力调度”的技术护城河是当下热议的话题,中国厂商正在构建自己的“异构算力调度”护城河[1][3] - 需要提供高效整合异构算力资源的算力平台,以及支持软硬件联合优化与加速的中间件,让异构芯片真正转化为大算力[3] - 解决“算力混用”难题将掌握定价权,商业模式是通过技术能力将算力标准化、单位化定价,产生规模经济效益[4] - 破解算力混用的技术难题,需要产业界各方及学界共同努力[6] 软硬件协同与多元异构技术发展 - 软硬件协同是解决算力挑战的一大趋势,英伟达的CUDA软件平台是其重要的“护城河”[3] - 英特尔结合了自家的Gaudi 3加速器与英伟达B200 GPU,打造了高效的异构AI系统,将英伟达B200集群的推理极限提升高达70%[3] - 建立开放、统一、合作的生态是共同破局的关键[3] 模型迭代与算力需求新挑战 - 模型的快速迭代对算力不断提出新的要求,例如从推理加速、强化学习到极低成本的MoE模型训练,国产加速卡需要不断适应[7] - 近5个月内,无穹AI云日均Token调用量增长了5倍[5] - 今年9月,无穹AI云平台某图像生成智能体客户通过开源模型复现功能,在4小时内的Token调用激增了100倍[5] - AI创作体验进阶要求基础设施从聚焦推理效率提升,转向为长程任务与上下文管理、强化学习训练框架、多模态任务与资源调度提供全面支撑[6] 智能体基础设施与算力调度演进 - 未来的智能体基础设施需要从模型算力调度向能力调度转变,能够针对不同时段、不同类型的应用需求进行算力的分部门、分时调用,以实现资源利用最大化[6] - 基于高速网络的大规模智算集群正在成为未来重点演进方向[7] 算力规模扩大带来的成本挑战 - 当算力规模扩大后,训练作业部分环节成本将随规模增长呈指数级增长,成本上升因素包括故障节点导致作业启动成功率降低、慢节点造成作业交付周期变长、规模化带来的节点检查成本增加、作业失败后排查故障节点耗时增加等[7] - 算力集群的能耗成本将显著增加,据阿里研究院2024年数据,到2030年,全球GPU算力集群的电力消耗将突破1000Twh,占全球电力消耗比重增长至2.5%左右[7]
3个月内10亿美元禁运GPU流入国内?英伟达AI芯片非官方维修需求暴增
是说芯语· 2025-07-28 15:47
核心观点 - 在美国收紧AI芯片对华出口管制后,至少有价值10亿美元的英伟达先进AI芯片(如B200、H100、H200)通过黑市流入中国大陆 [1][2] - 这些芯片主要通过中国分销商(如"时代之门")销售给数据中心供应商和其他公司,形成完整的地下供应链 [2][3][5] - 尽管英伟达否认参与,但黑市交易规模庞大,价格溢价高达50%,且已形成成熟的交易和测试流程 [3][6][7] - 随着H20芯片出口管制放宽,黑市销量有所下降,但对高性能芯片的需求依然存在 [12][13] - 东南亚国家成为新的中转站,美国可能进一步收紧对这些地区的出口管制 [13][14] - AI芯片维修需求激增,中国市场已出现专门维修英伟达高端GPU的公司,月维修量达500块 [17][18] 芯片黑市交易 - 英伟达B200 GPU成为中国半导体黑市最受欢迎的芯片,尽管被禁止向中国销售 [1] - 在特朗普政府收紧管制后的三个月内,黑市交易额超过10亿美元 [2] - 芯片以现成机架形式出售,每个机架包含8个B200,价格在300万至350万人民币之间,比美国溢价50% [3] - "时代之门"是主要销售商之一,估计已售出近4亿美元的产品 [3][5] - 交易通过社交媒体平台公开进行,包括抖音和小红书,形成类似"海鲜市场"的交易模式 [7][8][9] 供应链与分销网络 - 芯片最初可能来自美国超微电脑(Supermicro),但该公司否认参与走私 [5] - 分销网络涉及多级经销商,最终客户包括数据中心运营商和科技公司 [3][5] - 华纪元科技被列为"时代之门"的最大股东,声称拥有100多个业务合作伙伴,包括阿里云、百度云等 [3] - 供应链已扩展至东南亚国家,可能通过泰国、马来西亚等中转站进入中国 [13][14] 市场需求与价格动态 - B200因其性能、价值和易于维护而需求旺盛 [11] - GB200 AI机架也在中国市场出现,每个售价接近4000万人民币 [11] - 经销商已开始为未来的B300库存做广告,预计第四季度量产 [12] - 随着H20芯片恢复销售,黑市销量下降,但对高端芯片的需求持续存在 [12][13] 维修市场 - 中国市场上已出现十余家专门维修英伟达高端GPU的公司 [17] - 一家深圳企业月均维修量达500块AI芯片,配备256台服务器测试机房 [17] - 维修报价为1-2万元/块,或按原价10%收费,涵盖软件调试和硬件维修 [18] - 由于长期高负荷运转,H100/A100的故障率持续攀升,正常寿命仅2-5年 [18] 公司回应 - 英伟达否认参与或知晓芯片被违规转移,强调只有官方授权渠道才能提供可靠服务 [2][17] - 美超微、戴尔、华硕等公司表示严格遵守出口管制法规 [5][8] - 华纪元否认参与英伟达芯片业务,称其从事"智慧城市工作" [4][5]