Nvidia B200

搜索文档
华为新技术,挑战英伟达
半导体芯闻· 2025-08-28 17:55
核心观点 - 华为推出UB-Mesh技术 旨在通过单一协议统一AI数据中心内外部节点的所有互连 取代PCIe/CXL/NVLink/TCP/IP等协议 以降低延迟 控制成本并提高可靠性 并计划开源该协议[2][5][25] 技术细节 - UB-Mesh使任何端口无需协议转换即可直接通信 减少转换延迟并简化设计 同时保留以太网向后兼容性[5][7] - 技术将数据中心转变为SuperNode架构 支持最多1,000,000个处理器统一协同 每芯片带宽从100Gbps提升至10Tbps(1.25TB/s) 跳跃延迟降低至约150纳秒[7] - 网络拓扑采用混合模型:顶层CLOS结构连接机架 下层多维网格连接机架内节点 避免传统设计在数万节点规模下的高成本问题[17][22] 性能与成本优势 - 传统互连成本随节点数量线性增长 而UB-Mesh成本扩展呈亚线性 容量增加时成本不会相应增加[22] - 华为提出8192节点实用系统作为可行性证明 其可靠性设计通过热备用机架自动接管故障 将平均故障间隔时间延长数个数量级[22] 技术挑战与解决方案 - 长距离光纤传输错误率高于电气连接 华为提出链路级重试机制 光模块备份通道及多模块交叉连接设计以确保持续运行[13] 行业竞争与标准化 - 华为通过UB-Mesh减少对西方标准(如PCIe/NVLink/TCP/IP)的依赖 专注于数据中心级解决方案而非单一硬件竞争[25][26] - 技术将开源供全球评估 若部署成功且第三方兴趣充足 可能推动其成为行业标准[2][26]
万字解读AMD的CDNA 4 架构
半导体行业观察· 2025-06-18 09:26
AMD CDNA 4架构核心升级 - CDNA 4是AMD最新面向计算的GPU架构,专注于提升低精度数据类型下的矩阵乘法性能,这对机器学习工作负载至关重要[2] - 架构采用与CDNA 3相同的大规模芯片组设计,包含8个加速器计算芯片(XCD)和4个基础芯片,通过Infinity Fabric技术实现一致内存访问[4] - 相比CDNA 3的MI300X,CDNA 4的MI355X减少了每个XCD的CU数量但提高了时钟速度,整体性能差距不大[5] 性能参数对比 - MI355X采用TSMC N3P工艺(计算芯片)和6nm工艺(基础芯片),时钟速度2.4GHz,比MI300X的2.1GHz和Nvidia B200的1.965GHz更高[5] - MI355X配备8个HBM3E堆栈,提供288GB内存和8TB/s带宽,优于MI300X的192GB/5.3TB/s和B200的180GB/7.7TB/s[5] - 在FP6精度下,CDNA 4的每CU矩阵吞吐量与B200 SM相当,但在16位和8位数据类型上B200仍保持优势[6] 计算单元改进 - CDNA 4重新平衡执行单元,专注于低精度矩阵乘法,许多情况下每CU矩阵吞吐量翻倍[6] - 矢量运算方面,CDNA 4保持MI300X的优势,每个CU有128条FP32通道,每周期提供256 FLOPS[8] - LDS(本地数据共享)容量从CDNA 3的64KB提升至160KB,读取带宽翻倍至每时钟256字节[14][15] 系统架构优化 - MI355X升级使用HBM3E内存,计算带宽比提升至每FP32 FLOP 0.05字节,优于MI300X的0.03字节[25] - 二级缓存新增"回写脏数据并保留行副本"功能,优化内存子系统带宽使用[20] - 架构采用两个IOD(输入输出芯片)而非上代的四个,简化了Infinity Fabric网络,延迟降低14%[52] 产品规格与性能 - MI355X GPU提供1400W直接液冷版本,FP8稀疏计算峰值达10PFLOPS,FP6/FP4达20PFLOPS[74] - 相比MI300X,MI355X在FP16/BF16矩阵运算性能提升1.9倍,FP8/INT8提升1.9倍,并新增FP6/FP4支持[47] - 内存分区支持NPS1(全内存交错)和NPS2(144GB分池)两种模式,后者可减少跨IOD通信开销[60][61] 软件生态系统 - ROCm软件堆栈支持Kubernetes编排,提供PyTorch和JAX等框架优化[70] - 针对生成式AI优化了vLLM和SGLang等推理框架,提供Llama系列等流行模型的Day 0支持[72] - 包含分布式训练框架如Maxtext(JAX)和Megatron LM(PyTorch),支持Flash Attention v3等关键技术[71]
台积电,颠覆传统中介层
半导体芯闻· 2025-06-12 18:04
台积电CoWoS封装技术崛起 - 人工智能热潮推动GPU需求激增,台积电CoWoS封装技术成为关键支撑力量,英伟达CEO黄仁勋表示在CoWoS领域"别无选择"[1] - 台积电凭借CoWoS技术超越日月光成为全球最大封测厂商,并持续扩张产能[1] - 英伟达Blackwell系列产品将主要采用CoWoS-L封装,替代部分CoWoS-S产能,因B100/B200 GPU需10TB/s互连带宽[3] CoWoS技术演进与瓶颈 - 芯片尺寸增大至80x84毫米导致12英寸晶圆仅能容纳4颗芯片,超大封装面临基板尺寸(100x100mm至120x120mm)和散热挑战[4] - 助焊剂残留问题影响CoWoS良率,台积电正测试无助焊剂键合技术,预计2024年底完成评估[5] - 中介层尺寸计划从2023年80x80mm(3.3倍光罩)扩展至2026年5.5倍光罩,2027年推出9.5倍光罩版本[8] 下一代封装技术布局 - 台积电开发SoW-X技术,性能较CoWoS提升40倍,模拟完整服务器机架功能,计划2027年量产[8] - CoPoS技术将圆形晶圆改为310x310mm矩形面板,芯片容量提升数倍,计划2029年量产,英伟达或为首个客户[9][10] - CoPoS采用玻璃中介层替代硅,具有更高成本效益和热稳定性,TGV技术实现更低功耗和更高带宽密度[12] 技术路线对比 - FOPLP无需中介层,适合中端ASIC;CoPoS保留中介层,更适合高端AI/HPC系统[11] - 玻璃芯基板在互连密度、信号布线和热膨胀系数等方面优于传统有机基板[12] - 方形封装工艺需解决翘曲、均匀度和RDL线宽缩小至1µm等技术难题[14]
传华为开发新AI芯片
半导体芯闻· 2025-04-28 18:15
华为AI芯片进展 - 公司正在测试最新AI处理器Ascend 910D 计划取代英伟达部分高端产品如H100 [2] - 已与中国科技公司接洽进行技术可行性测试 首批样品预计5月底交付 [2] - 计划最早5月向中国客户大规模出货910C芯片 [2] 中美技术竞争背景 - 美国限制中国获取英伟达最先进AI产品包括B200和H100芯片 [2] - H100芯片在2022年未上市即被禁售 [2] - 华为等中国公司长期致力于开发替代方案以突破技术封锁 [2] 行业动态 - 英伟达H100芯片性能成为行业对标基准 [2] - 训练模型用高端芯片需求旺盛 涉及算法决策等核心AI应用 [2]