AMD Instinct MI350系列

搜索文档
万字解读AMD的CDNA 4 架构
半导体行业观察· 2025-06-18 09:26
AMD CDNA 4架构核心升级 - CDNA 4是AMD最新面向计算的GPU架构,专注于提升低精度数据类型下的矩阵乘法性能,这对机器学习工作负载至关重要[2] - 架构采用与CDNA 3相同的大规模芯片组设计,包含8个加速器计算芯片(XCD)和4个基础芯片,通过Infinity Fabric技术实现一致内存访问[4] - 相比CDNA 3的MI300X,CDNA 4的MI355X减少了每个XCD的CU数量但提高了时钟速度,整体性能差距不大[5] 性能参数对比 - MI355X采用TSMC N3P工艺(计算芯片)和6nm工艺(基础芯片),时钟速度2.4GHz,比MI300X的2.1GHz和Nvidia B200的1.965GHz更高[5] - MI355X配备8个HBM3E堆栈,提供288GB内存和8TB/s带宽,优于MI300X的192GB/5.3TB/s和B200的180GB/7.7TB/s[5] - 在FP6精度下,CDNA 4的每CU矩阵吞吐量与B200 SM相当,但在16位和8位数据类型上B200仍保持优势[6] 计算单元改进 - CDNA 4重新平衡执行单元,专注于低精度矩阵乘法,许多情况下每CU矩阵吞吐量翻倍[6] - 矢量运算方面,CDNA 4保持MI300X的优势,每个CU有128条FP32通道,每周期提供256 FLOPS[8] - LDS(本地数据共享)容量从CDNA 3的64KB提升至160KB,读取带宽翻倍至每时钟256字节[14][15] 系统架构优化 - MI355X升级使用HBM3E内存,计算带宽比提升至每FP32 FLOP 0.05字节,优于MI300X的0.03字节[25] - 二级缓存新增"回写脏数据并保留行副本"功能,优化内存子系统带宽使用[20] - 架构采用两个IOD(输入输出芯片)而非上代的四个,简化了Infinity Fabric网络,延迟降低14%[52] 产品规格与性能 - MI355X GPU提供1400W直接液冷版本,FP8稀疏计算峰值达10PFLOPS,FP6/FP4达20PFLOPS[74] - 相比MI300X,MI355X在FP16/BF16矩阵运算性能提升1.9倍,FP8/INT8提升1.9倍,并新增FP6/FP4支持[47] - 内存分区支持NPS1(全内存交错)和NPS2(144GB分池)两种模式,后者可减少跨IOD通信开销[60][61] 软件生态系统 - ROCm软件堆栈支持Kubernetes编排,提供PyTorch和JAX等框架优化[70] - 针对生成式AI优化了vLLM和SGLang等推理框架,提供Llama系列等流行模型的Day 0支持[72] - 包含分布式训练框架如Maxtext(JAX)和Megatron LM(PyTorch),支持Flash Attention v3等关键技术[71]
AMD“再战”英伟达:发布AI芯片MI350系列,OpenAI成关键盟友
国际金融报· 2025-06-13 22:17
| (unit: US$M) | | --- | 全球第二大的CPU、GPU厂商AMD再次公开"叫板"英伟达。 当地时间2025年6月12日,AMD在美国圣何塞举办年度AI盛会Advancing AI 2025,会上发布了旗舰数据中心AI芯片、AI软件栈、AI 机架级基础设施、AI网卡与DPU等新品。AMD掌门人苏姿丰(Lisa Su)表示,公司最新AI处理器有望挑战英伟达芯片,并预测 2028年市场规模将超越5000亿美元。 据记者了解,AMD本次发布的新产品包括数据中心AI芯片AMD Instinct MI350系列和全新AI软件栈ROCm 7.0,并预告明年将推出 AI芯片MI400系列和下一代"Helios"AI机架级基础设施。其中,MI350系列包括MI350X和MI355X两款GPU,二者均采用3nm工艺, 包含1850亿晶体管,配备HBM3E内存。前者采用风冷,后者采用更先进的液冷。对比前代的MI300X,MI350系列算力提升4倍,推 理速度快35倍。 苏姿丰称,自2年前推出Instinct MI300X,AMD每年都会推出新的AI加速器。通过推出MI350系列,AMD实现了Instinct系 ...
AMD(AMD.US)发布两代旗舰AI芯片欲叫板英伟达 大摩:MI400或成关键拐点
智通财经网· 2025-06-13 20:52
据悉,将于明年推出的数据中心AI芯片AMD Instinct MI400系列专为大规模训练和分布式推理而设计, 将FP4精度下峰值算力翻倍提升至40PFLOPS,FP8峰值性能达到20PFLOPS,搭载432GB HBM4内存, 内存带宽达到19.6TB/s,每GPU横向扩展带宽达到300GB/s,可实现跨机架和集群的高带宽互连,旨在 训练和运行拥有数千亿和万亿级参数的大模型。相比MI355X,MI400系列的性能提升高达10倍。 智通财经APP获悉,当地时间6月12日,全球第二大AI芯片供应商AMD(AMD.US)在AMD Advancing AI 大会上亮出其史上最强AI新品阵容——旗舰数据中心AI芯片、AI软件栈、AI机架级基础设施、AI网卡 与DPU,全面展露与英伟达(NVDA.US)掰手腕的雄心宏图。 此次AMD最新发布或预览的重点产品包括:数据中心AI芯片AMD Instinct MI350系列、数据中心AI芯片 AMD Instinct MI400系列(明年推出)、全新AI软件栈ROCm 7.0、下一代"Helios"AI机架级基础设施(明年 推出)。 对于此次AI新品发布,摩根士丹利表示,真正 ...
AMD甩出最猛两代AI芯片,全球首推432GB HBM4,OpenAI CEO现场夸
36氪· 2025-06-13 10:04
智东西美国圣何塞6月12日现场报道,今日,年度AI盛会AMD Advancing AI大会火爆开幕,全球第二大AI芯片供应商AMD亮出其史上最强AI 新品阵容——旗舰数据中心AI芯片、AI软件栈、AI机架级基础设施、AI网卡与DPU,全面展露与英伟达掰手腕的雄心宏图。 xAI技术团队成员Xiao Sun、Meta工程副总裁Yee Jiun Song、甲骨文云基础设施执行副总裁Mahesh Thiagarajan、HUMAIN CEO Tareq Amin相继 登台,与AMD董事会主席及首席执行官苏姿丰(Lisa Su)博士对谈。 OpenAI联合创始人兼CEO Sam Altman作为惊喜嘉宾压轴登场,透露OpenAI团队在MI300X和MI450上开展了一些工作。他评价说,MI450的内 存架构已为推理做好准备,相信它也会成为出色的训练选择。 此次AMD最新发布或预览的重点产品包括: 1、数据中心AI芯片AMD Instinct MI350系列:采用3nm制程,集成了1850亿颗晶体管,基于AMD CDNA 4架构,搭载288GB HBM3e内存, 内存带宽达到8TB/s,单GPU可运行5200个参数的大模 ...