Blackwell Ultra B300

搜索文档
H20卖不动?英伟达最新“特供版”芯片曝光
是说芯语· 2025-08-20 16:45
英伟达中国特供版AI芯片B30A - 公司正在开发基于Blackwell架构的中国特供版AI芯片B30A 性能将超越当前在华销售的H20型号 [1] - B30A采用单芯片设计 集成主要电路于同一硅晶圆 提升整体性能与稳定性 [3] - 芯片配备HBM高带宽内存与NVLink技术 支持处理器间高速数据传输 [3] Blackwell架构技术细节 - Blackwell架构为Hopper架构升级版 采用台积电4NP工艺制造 [3] - Blackwell Ultra B300支持第五代NVLink 芯片间互联带宽达1 8TB/s 配备288GB HBM3E内存 [3] - B300A为全球通用产品 基于台积电4nm制程 拥有144GB HBM3E FP8算力约4 PFLOPS [4] B30A性能参数对比 - B30A原始计算性能预计为Blackwell Ultra B300双芯片配置的一半 [3] - H20内存为96GB HBM3 互联带宽900GB/s FP8算力296 TFLOPS 仅为B300A的1/14 [4] - H100在FP8精度下算力达4PFLOPS B30A性能可能接近该水平 [4] 中国市场产品布局 - 公司计划最快下月向中国客户提供B30A样品测试 [4] - 将同步推出RTX 6000D 采用GDDR内存 显存带宽1 398TB/s 定价低于H20 [5] - RTX 6000D面向AI推理任务 预计9月实现小批量交付 [5] 产品定位与策略 - B30A被描述为B300A的"阉割版" 性能较全球版有所缩水 [4] - 新产品线旨在满足中国市场需求 同时符合当地监管要求 [1][4] - 公司通过差异化产品组合强化在中国AI芯片市场的覆盖 [5]
深度解读黄仁勋GTC演讲:全方位“为推理优化”,“买越多、省越多”,英伟达才是最便宜!
硬AI· 2025-03-19 14:03
英伟达GTC 2025技术创新与行业影响 核心观点 - 英伟达通过推理Token扩展、推理堆栈与Dynamo技术、共封装光学(CPO)等创新显著降低AI总拥有成本,巩固其在全球AI生态系统的领先地位 [2][5] - 三条扩展定律(预训练、后训练、推理时)协同作用推动AI模型能力持续提升 [8][10] - 硬件性能提升与成本下降形成"杰文斯悖论"效应:成本降低刺激需求增长而非抑制 [10][12] 推理Token扩展 - 现有模型Token数超100万亿,推理模型Token量达20倍,计算量高出150倍 [12] - 测试阶段需数十万Token/查询,每月数亿次查询;后训练阶段单个模型需处理数万亿Token [13] - 代理能力AI推动多模型协同工作,解决复杂问题 [13] 黄仁勋数学规则 - 第一条规则:FLOPs数据以2:4稀疏度计,实际密集性能为公布值的2倍(如H100 FP16密集性能1979.81 TFLOPs) [15] - 第二条规则:带宽按双向计量(如NVLink5报1.8TB/s=900GB/s发送+900GB/s接收) [16] - 第三条规则:GPU数量按封装中芯片数计(如NVL144含72个封装×2芯片) [16] GPU与系统路线图 Blackwell Ultra B300 - FP4 FLOPs密度较B200提升超50%,内存容量升至288GB/封装(8×12-Hi HBM3E),带宽维持8TB/s [20] - 采用CoWoS-L封装技术,16个GPU封装组成B300 NVL16系统 [21][22] - 引入CX-8 NIC(800G吞吐量),比CX-7提升一倍 [22] Rubin系列 - 采用台积电3nm工艺,50 PFLOPs密集FP4性能(较B300提升3倍) [25][26] - 关键改进:I/O芯片释放20%-30%面积、1800W TDP、128×128张量核systolic array [27][28] - HBM4容量288GB(8×12-Hi),带宽13TB/s(总线2048位,6.5Gbps针速) [32] Rubin Ultra - 性能翻倍至100 PFLOPs密集FP4,HBM4E容量1024GB(16×16层32Gb DRAM) [36] - 系统总高速存储365TB,Vera CPU配1.2TB LPDDR [37] - 采用Kyber机架架构,NVL576配置含144封装×4芯片=576计算芯片 [39][44] 推理堆栈与Dynamo技术 - Smart Router实现多GPU负载均衡,避免预加载/解码阶段瓶颈 [56][58] - GPU Planner动态调整资源分配,支持MoE模型负载均衡 [59][60] - NCCL小消息传输延迟降低4倍,NIXL引擎实现GPU-NIC直连(免CPU中转) [61][62] - NVMe KV-Cache卸载管理器提升56.3%缓存命中率,释放预加载节点容量 [65] CPO技术突破 - 功耗显著降低:400k GB200 NVL72集群总功耗节省12%,收发器功耗占比从10%降至1% [75] - 网络扁平化:三层→两层拓扑,Quantum X-800 CPO交换机提供144×800G端口 [76] - 长期潜力:提升GPU扩展网络基数,支持超576 GPU的规模化部署 [77] 成本效益与行业地位 - Blackwell较Hopper性能提升68倍,成本降87%;Rubin预计性能提升900倍,成本降99.97% [69] - 技术迭代速度使竞争对手难以追赶,形成平台优势 [79][80] - CPO、机架设计等创新持续扩大与竞争对手差距 [78][79]