万字解读AMD的CDNA 4 架构

AMD CDNA 4架构核心升级 - CDNA 4是AMD最新面向计算的GPU架构，专注于提升低精度数据类型下的矩阵乘法性能，这对机器学习工作负载至关重要[2] - 架构采用与CDNA 3相同的大规模芯片组设计，包含8个加速器计算芯片(XCD)和4个基础芯片，通过Infinity Fabric技术实现一致内存访问[4] - 相比CDNA 3的MI300X，CDNA 4的MI355X减少了每个XCD的CU数量但提高了时钟速度，整体性能差距不大[5] 性能参数对比 - MI355X采用TSMC N3P工艺(计算芯片)和6nm工艺(基础芯片)，时钟速度2.4GHz，比MI300X的2.1GHz和Nvidia B200的1.965GHz更高[5] - MI355X配备8个HBM3E堆栈，提供288GB内存和8TB/s带宽，优于MI300X的192GB/5.3TB/s和B200的180GB/7.7TB/s[5] - 在FP6精度下，CDNA 4的每CU矩阵吞吐量与B200 SM相当，但在16位和8位数据类型上B200仍保持优势[6] 计算单元改进 - CDNA 4重新平衡执行单元，专注于低精度矩阵乘法，许多情况下每CU矩阵吞吐量翻倍[6] - 矢量运算方面，CDNA 4保持MI300X的优势，每个CU有128条FP32通道，每周期提供256 FLOPS[8] - LDS(本地数据共享)容量从CDNA 3的64KB提升至160KB，读取带宽翻倍至每时钟256字节[14][15] 系统架构优化 - MI355X升级使用HBM3E内存，计算带宽比提升至每FP32 FLOP 0.05字节，优于MI300X的0.03字节[25] - 二级缓存新增"回写脏数据并保留行副本"功能，优化内存子系统带宽使用[20] - 架构采用两个IOD(输入输出芯片)而非上代的四个，简化了Infinity Fabric网络，延迟降低14%[52] 产品规格与性能 - MI355X GPU提供1400W直接液冷版本，FP8稀疏计算峰值达10PFLOPS，FP6/FP4达20PFLOPS[74] - 相比MI300X，MI355X在FP16/BF16矩阵运算性能提升1.9倍，FP8/INT8提升1.9倍，并新增FP6/FP4支持[47] - 内存分区支持NPS1(全内存交错)和NPS2(144GB分池)两种模式，后者可减少跨IOD通信开销[60][61] 软件生态系统 - ROCm软件堆栈支持Kubernetes编排，提供PyTorch和JAX等框架优化[70] - 针对生成式AI优化了vLLM和SGLang等推理框架，提供Llama系列等流行模型的Day 0支持[72] - 包含分布式训练框架如Maxtext(JAX)和Megatron LM(PyTorch)，支持Flash Attention v3等关键技术[71]