Neocoud

搜索文档
AMD 推进人工智能:MI350X 与 MI400 UALoE72、MI500 UAL256——SemiAnalysis
2025-06-16 00:03
纪要涉及的公司和行业 - **公司**:AMD、英伟达(Nvidia)、AWS、Meta、OpenAI、x.A、微软(Microsoft)、甲骨文(Oracle)、字节跳动(ByteDance)、台积电(TSMC) - **行业**:半导体、云计算、人工智能 纪要提到的核心观点和论据 AMD新产品竞争力 - **M50X/M55X**:在中⼩型LLMs推理的每TCO性能上可与英伟达HGX B200竞争,但M55X⾮机架级产品,在尖端模型推理或训练上⽆法与英伟达GB200 NVL72抗衡;M55X功耗⾼1.4倍,但TFLOPS吞吐量仅⽐M50X快不到10%,实际性能优势预计超10%;M50X和M55X在BF1/FP8/FP数据类型纸⾯规格能与HGX B200抗衡,M55X FP性能⽐B200 FP快2.2倍,但实际受功耗限制[7][11][15][16][17]。 - **M00系列**:有望在202年下半年成为与英伟达VR200 NVL1竞争的机架级解决⽅案;虽未采⽤真正UALink技术,但其基于以太⽹UALink在纵向扩展带宽上可与VR200 NVL1的NVLink竞争,且⽀持72个逻辑GPU纵向扩展规模;AMD宣布开发者云服务将M00按需定价降⾄1. 美元/⼩时/GPU,或使租⽤AMD GPU具竞争⼒[8][11][12][13]。 - **M500 UAL25**:2027年末发布,将配备25个物理/逻辑芯⽚,⽽VR00 NVL57仅1个[13]。 市场与客户 - **超⼤规模企业与AI实验室**:AMD产品总体拥有成本和每TCO性能潜⼒获超⼤规模企业和⼤型AI实验室共鸣,订单势头强劲;AWS⾸次⼤规模采购并部署AMD GPU⽤于租赁;Meta开始⽤AMD训练,参与M55X和M00项⽬;OpenAI欣赏AMD发展态势,x.A将⽤AMD系统进⾏⽣产级推理;甲骨文计划部署 万台M55X;微软少量订购M55,对M00部署持积极态度[58][59][60][61][62][64][65]。 - **Neocoud租赁市场**:专注AMD的Neocoud服务商少,导致AMD GPU租赁价格⾼,削弱成本竞争⼒;M00X和M25X需达特定租赁价格才能与英伟达H200竞争;AMD通过回租算⼒激励Neocoud支持,构建低风险商业模式;开发者云推出降低M00X租赁价格,但默认配额设置待优化[67][68][69][70][74][75][76][77]。 软件与技术 - **ROCm软件**:AMD发布专注推理性能的ROCm 7,宣称推理吞吐性能相⽐ROCm 平均提升3.5倍,服务DeepSeek R1时相⽐Nvidia B200有1. 倍优势;支持分布式推理,支持vLLM、SGLang和m - d编排框架,但m - d缺乏KVCache管理器等功能;对Triton内核编写库支持提升,对字节跳动Triton Distributed感兴趣;整合Mooncake Transfer Engine和DeepEP未开源;推出开发者云平台与积分计划及Python包“rocm”[82][83][84][86][88][89]。 - **PyTorch持续集成与测试**:AMD为M55芯⽚在PyTorch添加持续集成和⾃动化测试;英伟达积极推动开源B200 PyTorch持续集成,承诺捐赠8台B200给PyTorch Foundation;英伟达应加⼤对Backwe PyTorch持续集成投⼊,将消费级GPU纳⼊持续集成体系[91][92][93]。 - **MLPerf训练基准测试**:AMD⾸次提交单节点Lama2 70B LoRA微调和BERT训练的MLPerf训练测试结果,应参与更多实际场景训练基准测试;AMD MLPerf运⾏指南易复现,与英伟达形成对⽐[94][95][96]。 竞争与市场格局 - **英伟达DGX Lepton**:其商业战略可能推动AI计算资源商品化,使客户在不同云平台迁移推理⼯作负载,吸引关注推理和⼩规模训练的⽤⼾;但引发Neocoud不满,为AMD创造合作机会;对终端⽤⼾提升总体拥有成本效益,实现体验标准化[37][38][40][41][42][45]。 - **M55X营销话术**:AMD将M55X宣传为“机架级解决⽅案”不实,其集体性能⽐GB200 NVL72差18倍,在专家混合模型推理和训练的全对全通信及2D并⾏策略的全规约操作中性能远低于GB200 NVL72[46][47][48][49][54][55]。 其他重要但是可能被忽略的内容 - **AMD GPU分区项目**:AMD将⼤量资源浪费在GPU分区项⽬上,客户⽆此需求,客户希望AMD为多节点推理提供更好⽀持[98][99][100]。 - **M55X制造工艺**:AMD优化M55X芯粒架构,调整布局优化⼩芯⽚间通信,节省功耗与⾯积,但使D堆叠良率更重要;基础芯⽚速度升级,内存控制器支持更快HBME;计算芯⽚XCD从台积电N5制程升级⾄NP节点,启⽤计算单元数量变化,布局⽅向改变[104][105][106][107][108][109][111][112]。