Neocoud - 财报，业绩电话会，研报，新闻

Neocoud

搜索文档

AMD 推进人工智能：MI350X 与 MI400 UALoE72、MI500 UAL256——SemiAnalysis

2025-06-16 00:03

纪要涉及的公司和行业 - **公司**：AMD、英伟达（Nvidia）、AWS、Meta、OpenAI、x.A、微软（Microsoft）、甲骨文（Oracle）、字节跳动（ByteDance）、台积电（TSMC） - **行业**：半导体、云计算、人工智能纪要提到的核心观点和论据 AMD新产品竞争力 - **M50X/M55X**：在中⼩型LLMs推理的每TCO性能上可与英伟达HGX B200竞争，但M55X⾮机架级产品，在尖端模型推理或训练上⽆法与英伟达GB200 NVL72抗衡；M55X功耗⾼1.4倍，但TFLOPS吞吐量仅⽐M50X快不到10%，实际性能优势预计超10%；M50X和M55X在BF1/FP8/FP数据类型纸⾯规格能与HGX B200抗衡，M55X FP性能⽐B200 FP快2.2倍，但实际受功耗限制[7][11][15][16][17]。 - **M00系列**：有望在202年下半年成为与英伟达VR200 NVL1竞争的机架级解决⽅案；虽未采⽤真正UALink技术，但其基于以太⽹UALink在纵向扩展带宽上可与VR200 NVL1的NVLink竞争，且⽀持72个逻辑GPU纵向扩展规模；AMD宣布开发者云服务将M00按需定价降⾄1. 美元/⼩时/GPU，或使租⽤AMD GPU具竞争⼒[8][11][12][13]。 - **M500 UAL25**：2027年末发布，将配备25个物理/逻辑芯⽚，⽽VR00 NVL57仅1个[13]。市场与客户 - **超⼤规模企业与AI实验室**：AMD产品总体拥有成本和每TCO性能潜⼒获超⼤规模企业和⼤型AI实验室共鸣，订单势头强劲；AWS⾸次⼤规模采购并部署AMD GPU⽤于租赁；Meta开始⽤AMD训练，参与M55X和M00项⽬；OpenAI欣赏AMD发展态势，x.A将⽤AMD系统进⾏⽣产级推理；甲骨文计划部署万台M55X；微软少量订购M55，对M00部署持积极态度[58][59][60][61][62][64][65]。 - **Neocoud租赁市场**：专注AMD的Neocoud服务商少，导致AMD GPU租赁价格⾼，削弱成本竞争⼒；M00X和M25X需达特定租赁价格才能与英伟达H200竞争；AMD通过回租算⼒激励Neocoud支持，构建低风险商业模式；开发者云推出降低M00X租赁价格，但默认配额设置待优化[67][68][69][70][74][75][76][77]。软件与技术 - **ROCm软件**：AMD发布专注推理性能的ROCm 7，宣称推理吞吐性能相⽐ROCm 平均提升3.5倍，服务DeepSeek R1时相⽐Nvidia B200有1. 倍优势；支持分布式推理，支持vLLM、SGLang和m - d编排框架，但m - d缺乏KVCache管理器等功能；对Triton内核编写库支持提升，对字节跳动Triton Distributed感兴趣；整合Mooncake Transfer Engine和DeepEP未开源；推出开发者云平台与积分计划及Python包“rocm”[82][83][84][86][88][89]。 - **PyTorch持续集成与测试**：AMD为M55芯⽚在PyTorch添加持续集成和⾃动化测试；英伟达积极推动开源B200 PyTorch持续集成，承诺捐赠8台B200给PyTorch Foundation；英伟达应加⼤对Backwe PyTorch持续集成投⼊，将消费级GPU纳⼊持续集成体系[91][92][93]。 - **MLPerf训练基准测试**：AMD⾸次提交单节点Lama2 70B LoRA微调和BERT训练的MLPerf训练测试结果，应参与更多实际场景训练基准测试；AMD MLPerf运⾏指南易复现，与英伟达形成对⽐[94][95][96]。竞争与市场格局 - **英伟达DGX Lepton**：其商业战略可能推动AI计算资源商品化，使客户在不同云平台迁移推理⼯作负载，吸引关注推理和⼩规模训练的⽤⼾；但引发Neocoud不满，为AMD创造合作机会；对终端⽤⼾提升总体拥有成本效益，实现体验标准化[37][38][40][41][42][45]。 - **M55X营销话术**：AMD将M55X宣传为“机架级解决⽅案”不实，其集体性能⽐GB200 NVL72差18倍，在专家混合模型推理和训练的全对全通信及2D并⾏策略的全规约操作中性能远低于GB200 NVL72[46][47][48][49][54][55]。其他重要但是可能被忽略的内容 - **AMD GPU分区项目**：AMD将⼤量资源浪费在GPU分区项⽬上，客户⽆此需求，客户希望AMD为多节点推理提供更好⽀持[98][99][100]。 - **M55X制造工艺**：AMD优化M55X芯粒架构，调整布局优化⼩芯⽚间通信，节省功耗与⾯积，但使D堆叠良率更重要；基础芯⽚速度升级，内存控制器支持更快HBME；计算芯⽚XCD从台积电N5制程升级⾄NP节点，启⽤计算单元数量变化，布局⽅向改变[104][105][106][107][108][109][111][112]。

Artificial Intelligence

Artificial Intelligence