Workflow
ROCm 7
icon
搜索文档
AMD终于从英伟达“平替”变成了“平起平坐”!
美股研究社· 2025-06-26 17:27
核心观点 - AMD在人工智能和高性能计算领域的技术差距正在缩小,即将推出的MI350和MI400系列加速器以及配套的Helios系统和ROCm 7软件堆栈将显著提升其竞争力 [1][2][3][5][6][8][9] - 公司产品路线图强调性能优化和部署灵活性,MI350系列AI计算性能提升4倍,推理效率提升35倍,ROCm 7软件推理能力提升3.5倍,训练性能提升3倍 [2][5][9] - AMD通过整合ZT Systems的设计能力,推出首款机架式AI基础设施Helios,支持72个GPU配置,每个GPU带宽提升8倍,直接对标英伟达Blackwell系统 [3][8] - Meta和OpenAI等行业领导者已开始采用AMD技术,Meta在MI300实例上部署Llama模型,OpenAI通过Azure MI300X运行工作负载并计划2026年采用MI400 [9][10] - 公司EPYC服务器处理器可减少45%服务器数量,降低初始资本支出50%和年度运营支出40%以上,优化现有基础设施 [5] 产品技术进展 Instinct MI350系列加速器 - 预计2025年下半年量产,包括MI350X和MI355X型号,AI计算性能较前代提升4倍,推理效率提升35倍 [2][6] - 支持传统风冷服务器64个GPU集群部署和液冷机架128个GPU部署,每GPU配备288GB HBM3E内存,与英伟达GB300 NVL72系统标准一致 [6][7] - 设计注重部署灵活性,帮助客户优化现有基础设施支持下一代AI开发 [6] Instinct MI400系列和Helios系统 - 预计2026年量产,集成HBM4内存,与Zen 6 EPYC "Venice"服务器CPU和Pensando "Vulcano" AI网卡组成完整解决方案 [3][8] - Helios系统支持72个GPU配置,通过UALink高速互连实现每个GPU带宽提升8倍,直接竞争英伟达Blackwell NVL72系统 [3][8] - 代表AMD首个机架规模AI基础设施,标志其系统设计能力提升 [3][8] ROCm 7软件和开发者生态 - ROCm 7相比ROCm 6实现推理性能提升3.5倍,训练性能提升3倍,增强与SGLang、vLLM等行业标准框架兼容性 [5][9] - 推出AMD开发者云服务,提供基于MI300的云实例,简化AI开发流程 [5][9] - 软件优化与硬件升级协同,形成全栈解决方案 [5][9] 市场竞争与客户采用 - 产品路线图旨在缩小与英伟达在性能和部署方面的差距,MI350/MI400系列和Helios系统构成直接竞争 [1][6][8] - Meta持续在MI300实例上部署Llama 3和Llama 4模型,验证AMD技术可行性 [9] - OpenAI通过Azure MI300X运行工作负载,并计划2026年采用MI400系列,显示行业认可度提升 [10] - 差异化优势在于提供优化现有基础设施的灵活方案,降低总体拥有成本 [6][7] 财务与估值 - 基准情景预测5年营收复合增长率12.2%,盈利复合增长率48.9% [14] - 下行情景假设5年营收复合增长率10.5%,盈利复合增长率45.7%,反映经济不确定性影响 [14] - 采用9.6%的WACC进行DCF估值,永续增长率假设3.5%,终值基于2029年EBITDA计算 [15] - 当前股价128.24美元,基准目标价200美元(+56%),上行目标价232美元(+81%),下行目标价105美元(-18%) [13][16]
摩根士丹利:AMD 人工智能进展活动 -MI350 表现尚可,但 MI400 才是更具长期潜力的转折点
摩根· 2025-06-16 11:16
With 7/10 of the largest AI companies using instinct, AMD has clearly gotten a seat at the table, but their ability to expand within those customers will be key. We know that the 4 large CSPs will be buying at least 40% more Blackwells than they bought hoppers; AMD may not grow that much across their largest customers for Mi350 series even off the much lower base. It's hard to know how much revenue was China in 2024 for AMD but with consensus for something like 25% y/y growth in instinct in 2025, there's a ...
“强得不可思议!” 英伟达对手放大招
中国基金报· 2025-06-16 08:28
公司动态 - 超威半导体公司发布新一代AI芯片MI350X和MI355X 将于2024年三季度通过云服务公司提供 并计划2026年推出下一代产品MI400 [1] - 新产品性能宣称超越英伟达旗舰产品B200 在大语言模型测试中多项指标优于英伟达产品 [1] - 同等成本下数据处理性能最高可提升40% 计划以更低定价推出替代方案 [1] - 客户拓展取得进展 产品已获Meta 微软 甲骨文等巨头采用 覆盖十大顶尖AI企业中的七家 [1] - 发布全新开发平台ROCm 7 以开源模式免费开放 支持非超威芯片兼容适配 [4] 行业竞争 - 超威选择在英伟达三个月前举办发布会的同一场地公布发展规划 显示对抗意图 [1] - 英伟达仍占据AI芯片市场超70%的份额 在生成式AI领域保持绝对领先优势 [2] - 行业重心正从学习转向以推理为核心的数据处理模式 为超威提供提升竞争力机遇 [3] - 英伟达构建的CUDA生态系统构成壁垒 开发者黏性极强 [3] - AI芯片领域出现类似基础模型领域的竞争格局 挑战者通过技术开放方式发起挑战 [4] 市场反应 - OpenAI首席执行官盛赞超威新品性能强悍得不可思议 凸显公司行业地位提升 [2] - 市场对摆脱英伟达高价芯片依赖的需求强烈 [1] - 超威选择在生成式AI规模化发展阶段以低价产品发起挑战 [3]
AMD 推进人工智能:MI350X 与 MI400 UALoE72、MI500 UAL256——SemiAnalysis
2025-06-16 00:03
纪要涉及的公司和行业 - **公司**:AMD、英伟达(Nvidia)、AWS、Meta、OpenAI、x.A、微软(Microsoft)、甲骨文(Oracle)、字节跳动(ByteDance)、台积电(TSMC) - **行业**:半导体、云计算、人工智能 纪要提到的核心观点和论据 AMD新产品竞争力 - **M50X/M55X**:在中⼩型LLMs推理的每TCO性能上可与英伟达HGX B200竞争,但M55X⾮机架级产品,在尖端模型推理或训练上⽆法与英伟达GB200 NVL72抗衡;M55X功耗⾼1.4倍,但TFLOPS吞吐量仅⽐M50X快不到10%,实际性能优势预计超10%;M50X和M55X在BF1/FP8/FP数据类型纸⾯规格能与HGX B200抗衡,M55X FP性能⽐B200 FP快2.2倍,但实际受功耗限制[7][11][15][16][17]。 - **M00系列**:有望在202年下半年成为与英伟达VR200 NVL1竞争的机架级解决⽅案;虽未采⽤真正UALink技术,但其基于以太⽹UALink在纵向扩展带宽上可与VR200 NVL1的NVLink竞争,且⽀持72个逻辑GPU纵向扩展规模;AMD宣布开发者云服务将M00按需定价降⾄1. 美元/⼩时/GPU,或使租⽤AMD GPU具竞争⼒[8][11][12][13]。 - **M500 UAL25**:2027年末发布,将配备25个物理/逻辑芯⽚,⽽VR00 NVL57仅1个[13]。 市场与客户 - **超⼤规模企业与AI实验室**:AMD产品总体拥有成本和每TCO性能潜⼒获超⼤规模企业和⼤型AI实验室共鸣,订单势头强劲;AWS⾸次⼤规模采购并部署AMD GPU⽤于租赁;Meta开始⽤AMD训练,参与M55X和M00项⽬;OpenAI欣赏AMD发展态势,x.A将⽤AMD系统进⾏⽣产级推理;甲骨文计划部署 万台M55X;微软少量订购M55,对M00部署持积极态度[58][59][60][61][62][64][65]。 - **Neocoud租赁市场**:专注AMD的Neocoud服务商少,导致AMD GPU租赁价格⾼,削弱成本竞争⼒;M00X和M25X需达特定租赁价格才能与英伟达H200竞争;AMD通过回租算⼒激励Neocoud支持,构建低风险商业模式;开发者云推出降低M00X租赁价格,但默认配额设置待优化[67][68][69][70][74][75][76][77]。 软件与技术 - **ROCm软件**:AMD发布专注推理性能的ROCm 7,宣称推理吞吐性能相⽐ROCm 平均提升3.5倍,服务DeepSeek R1时相⽐Nvidia B200有1. 倍优势;支持分布式推理,支持vLLM、SGLang和m - d编排框架,但m - d缺乏KVCache管理器等功能;对Triton内核编写库支持提升,对字节跳动Triton Distributed感兴趣;整合Mooncake Transfer Engine和DeepEP未开源;推出开发者云平台与积分计划及Python包“rocm”[82][83][84][86][88][89]。 - **PyTorch持续集成与测试**:AMD为M55芯⽚在PyTorch添加持续集成和⾃动化测试;英伟达积极推动开源B200 PyTorch持续集成,承诺捐赠8台B200给PyTorch Foundation;英伟达应加⼤对Backwe PyTorch持续集成投⼊,将消费级GPU纳⼊持续集成体系[91][92][93]。 - **MLPerf训练基准测试**:AMD⾸次提交单节点Lama2 70B LoRA微调和BERT训练的MLPerf训练测试结果,应参与更多实际场景训练基准测试;AMD MLPerf运⾏指南易复现,与英伟达形成对⽐[94][95][96]。 竞争与市场格局 - **英伟达DGX Lepton**:其商业战略可能推动AI计算资源商品化,使客户在不同云平台迁移推理⼯作负载,吸引关注推理和⼩规模训练的⽤⼾;但引发Neocoud不满,为AMD创造合作机会;对终端⽤⼾提升总体拥有成本效益,实现体验标准化[37][38][40][41][42][45]。 - **M55X营销话术**:AMD将M55X宣传为“机架级解决⽅案”不实,其集体性能⽐GB200 NVL72差18倍,在专家混合模型推理和训练的全对全通信及2D并⾏策略的全规约操作中性能远低于GB200 NVL72[46][47][48][49][54][55]。 其他重要但是可能被忽略的内容 - **AMD GPU分区项目**:AMD将⼤量资源浪费在GPU分区项⽬上,客户⽆此需求,客户希望AMD为多节点推理提供更好⽀持[98][99][100]。 - **M55X制造工艺**:AMD优化M55X芯粒架构,调整布局优化⼩芯⽚间通信,节省功耗与⾯积,但使D堆叠良率更重要;基础芯⽚速度升级,内存控制器支持更快HBME;计算芯⽚XCD从台积电N5制程升级⾄NP节点,启⽤计算单元数量变化,布局⽅向改变[104][105][106][107][108][109][111][112]。
AMD Stock Trades Higher Than Industry at 5.63X P/S: Hold or Fold?
ZACKS· 2025-06-14 01:20
估值与股价表现 - AMD股票目前被高估 其价值评分为D级 远期12个月市销率为5.63倍 高于行业平均的3.60倍 [1] - 年初至今AMD股价下跌3.9% 表现逊于计算机与技术板块2.5%的涨幅和计算机集成系统行业16.4%的增长 [3] - 股价表现不佳归因于宏观经济挑战加剧 包括关税上升和对华Instinct GPU出口管制带来的监管压力 [3] AI领域布局 - 推出Instinct MI350系列GPU 相比前代实现4倍AI计算性能提升 并展示开放式机架级AI基础设施及ROCm 7软件栈 [7][8] - 与Meta、微软、Oracle等战略合作 Meta将MI300X用于Llama 3/4推理 微软Azure采用MI300X运行专有和开源模型 [10] - Oracle率先部署含MI355X GPU的机架级方案 正在构建含131072块MI355X的zettascale级AI集群 [11] 产品与技术优势 - 第五代EPYC Turin处理器获广泛采用 前十大电信/航空/半导体公司均已部署 并加速渗透汽车/制造/能源领域 [12] - 诺基亚采用EPYC 9005系列处理器提升5G核心/边缘应用的能效 每瓦性能显著优化 [13] - 完成收购ZT Systems 整合其在系统与机架领域的优势 瞄准2028年5000亿美元的数据中心AI加速器市场 [14] 财务与竞争态势 - 2025年Q2营收指引中值为74亿美元(±3亿) 同比增长27% 但中国MI308X停运导致7亿美元营收损失 [15] - Q2每股收益共识预期0.56美元 过去30天下调13.8% 同比降18.84% 营收预期74.1亿美元同比增27% [16] - 面临英伟达在云数据中心/AI芯片市场的激烈竞争 以及博通等公司定制AI芯片对市场份额的挤压 [18]
AMD 'Serious AI Contender' With Sights On Over $500 Billion TAM, Billions In Revenue: Analyst
Benzinga· 2025-06-13 23:10
华尔街评级与分析师观点 - 华尔街在AMD AI活动后维持买入评级 包括美国银行证券、Rosenblatt和Benchmark Equity Research均重申买入评级 [1][3] - 分析师给出目标价:Rosenblatt的Kevin Cassidy预测200美元 Benchmark的Cody Acree预测170美元 美国银行证券的Vivek Arya预测130美元 [3] - 分析师共识认为公司AI战略执行成功 产品生态快速成熟且客户采用率提升 [3] AI产品与技术进展 - 正式发布MI350系列加速器 目前已投产并向核心合作伙伴供货 预计第三季度开始规模营收 [6] - 公布完整路线图:MI350已上市 MI400计划2026年推出 MI500计划2027年推出 显示创新承诺 [5][7] - 推出机架级系统 整合Instinct GPU、EPYC CPU、Pensando NIC和ROCm软件 直接对标英伟达NVL72系统 [7] - 最新ROCm 7软件平台作为CUDA的竞品发布 [7] 市场机会与财务目标 - AI加速器总可用市场(TAM)预期从5000亿美元上调至超5000亿美元 年复合增长率超60% [8] - 提前实现能效目标:MI350系列使AI训练能效较2021年基准提升38倍 远超原定30倍目标 [8] - 新设2030年能效目标:较2024年提升机架级能效20倍 [9] - Benchmark和Rosenblatt预测Q2营收74亿美元 每股收益0.47美元 [9] 合作伙伴与行业认可 - 获得微软、Meta、OpenAI和甲骨文等巨头背书 增强市场信心 [4] - 与xAI合作并参与40个主权AI项目 预计带来数十亿美元盈利收入 [12] - 开放架构战略(含ROCm软件和多LLM支持)成为关键差异化优势 [11][12] 竞争格局与市场定位 - MI355X加速器性能对标英伟达B200 形成竞争态势 [10] - 美国银行证券预计2025-2026年公司将获得AI市场低至中个位数份额 [10] - 确立AI计算领域重要竞争者地位 在AI CPU领先且加速器领域保持快速跟随者策略 [12]
AMD“再战”英伟达:发布AI芯片MI350系列,OpenAI成关键盟友
国际金融报· 2025-06-13 22:17
AMD新品发布 - AMD在Advancing AI 2025大会上发布旗舰数据中心AI芯片MI350系列、AI软件栈ROCm 7 0、AI机架级基础设施、AI网卡与DPU等新品 [2] - MI350系列包括MI350X和MI355X两款GPU 采用3nm工艺 包含1850亿晶体管 配备HBM3E内存 算力比前代MI300X提升4倍 推理速度快35倍 [2] - AMD预计2028年AI市场规模将超5000亿美元 并预告2026年推出MI400系列和下一代"Helios"AI机架级基础设施 [2][3] 产品性能与路线图 - MI350系列将于2025年三季度上市 获甲骨文、戴尔、Supermicro、HPE、思科等数十家厂商采用 [3] - MI400系列由AMD与OpenAI联合研发 OpenAI已在使用MI300X芯片并期待MI450表现 [3] - AMD实现Instinct系列史上最大性能飞跃 每年推出新AI加速器 [3] 财务表现 - AMD 2025年Q1营收74 4亿美元 同比增长35 9% 超市场预期的71亿美元 净利润7 1亿美元 核心经营利润同比激增170%至11 2亿美元 [4] - 英伟达2025年Q1营收441亿美元 同比增长69% 净利润187 8亿美元 同比增长26% 数据中心收入391亿美元 占总营收88% [4] 行业竞争格局 - 2025年Q1全球芯片设计厂商排名 英伟达以423 69亿美元收入居首 AMD以74 38亿美元排名第四 [7] - 英伟达数据中心收入环比增10% 同比增73% 大型云服务提供商贡献近半收入 其中50亿美元来自网络产品 [4] - AMD计划扩大量产MI350并推出MI400 预计与英伟达在AI算力市场竞争将白热化 [5]
AMD(AMD.US)发布两代旗舰AI芯片欲叫板英伟达 大摩:MI400或成关键拐点
智通财经网· 2025-06-13 20:52
产品发布 - 公司在AMD Advancing AI大会上发布史上最强AI新品阵容,包括旗舰数据中心AI芯片、AI软件栈、AI机架级基础设施、AI网卡与DPU [1] - 重点产品包括数据中心AI芯片AMD Instinct MI350系列、MI400系列(明年推出)、全新AI软件栈ROCm 7 0、下一代"Helios"AI机架级基础设施(明年推出) [1] - MI400系列专为大规模训练和分布式推理设计,FP4精度下峰值算力达40PFLOPS,FP8峰值性能达20PFLOPS,搭载432GB HBM4内存,内存带宽19 6TB/s,每GPU横向扩展带宽300GB/s [2] - MI400系列相比MI355X性能提升高达10倍 [2] 市场预期与竞争 - 摩根士丹利认为MI400可能成为公司"长期潜在拐点",若能如期交付将带来更大影响 [1] - 分析师初步看法认为MI400系列芯片和机架架构与英伟达Vera Rubin系列相当 [2] - OpenAI联合创始人Sam Altman透露团队在MI300X和MI450上开展工作,评价MI450内存架构已为推理做好准备 [2] - Sam Altman的发言被视为对AMD未来机遇的确认,可能增加投资者对公司"数百亿美元AI年收入"预测的可信度 [3] 公司战略与资源整合 - 公司强调过去12个月内完成25项收购和投资,分析师认为这体现其资源整合能力 [3] - 分析师指出执行力将是公司与市值数万亿美元竞争对手争夺市场份额的关键因素 [3]
超越英伟达B200!AMD最强AI芯:1.6倍大内存、大模型推理快30%,奥特曼都来站台
量子位· 2025-06-13 10:25
产品发布 - AMD发布MI350X和MI355X两款GPU,采用3nm工艺,包含1850亿晶体管,配备HBM3E内存 [2] - MI350系列相比前代MI300X算力提升4倍,推理速度快35倍 [3] - MI350系列内存是英伟达B200的1.6倍,训练推理速度相当或更快 [4] - MI355X每花费1美元可比B200多跑40%的tokens [5] - MI350X和MI355X基于第四代Instinct架构(CDNA 4),配备288GB HBM3E内存和8TB/s内存带宽 [9] - MI350X最高TBP为1000W(风冷),MI355X为1400W(液冷) [10] 性能参数 - MI350X和MI355X在FP64上算力分别为72和78.6TFLOPs,是英伟达的2倍 [12] - 低精度格式(FP16/FP8/FP4)性能与英伟达相当或略胜一筹 [13] - MI350系列FP6性能可以FP4速率运行 [14] - 8个MI355X组成节点,FP8算力81PF,FP6/FP4算力161PF [17] - 128GPU集群FP8算力可达1.3EFLOPs [18] 大模型表现 - MI355X(FP4)运行Llama 3.1 405B比MI300X(FP8)快35倍 [21] - 运行DeepSeek R1/Llama 4 Maverick/Llama 3.3 70B推理性能达3倍 [23] - MI355X在DeepSeek R1和Llama 3.1 405B上分别比B200高20%和30% [24] 软件生态 - 发布ROCm 7软件栈,带来3.5倍推理和3倍训练性能提升 [32] - ROCm 7支持分布式推理,与VLM/SGLang集成,支持180万Hugging Face模型 [33] 未来路线图 - 明年将发布MI400系列,与OpenAI联合研发 [7][36][38] - MI400系列预计比MI300快10倍,FP4达40PFLOPs [41] - 配备432GB HBM4内存和19.6TB/s带宽 [42] - 搭配2nm Venice CPU(256个Zen6核心)和Vulcano网卡(800GB/s) [44][45][47] - Helios机架可连接72个GPU,260TB/s扩展带宽 [49] - 计划2027年推出MI500系列GPU和Verono CPU [52]
AMD甩出最猛两代AI芯片,全球首推432GB HBM4,OpenAI CEO现场夸
36氪· 2025-06-13 10:04
产品发布 - AMD在Advancing AI大会上发布史上最强AI新品阵容,包括旗舰数据中心AI芯片、AI软件栈、AI机架级基础设施、AI网卡与DPU,展现与英伟达竞争雄心 [1] - 重点产品包括数据中心AI芯片MI350系列和MI400系列,其中MI350系列采用3nm制程,集成1850亿晶体管,基于CDNA 4架构,搭载288GB HBM3e内存,内存带宽8TB/s,单GPU可运行5200参数大模型,FP4/FP6精度下峰值算力20PFLOPS,推理性能达上一代35倍 [5] - MI400系列专为大规模训练和分布式推理设计,FP4精度下峰值算力40PFLOPS,FP8峰值性能20PFLOPS,搭载432GB HBM4内存,内存带宽19.6TB/s,性能相比MI355X提升10倍 [7][9] 性能对比 - MI355X与英伟达B200/GB200相比,内存容量多60%,FP64/FP32和FP6精度下峰值性能翻倍,FP16/FP8/FP4精度下性能相当 [36] - 运行DeepSeek R1模型时,MI350系列推理吞吐量超过英伟达B200 [5] - 8卡MI355X平台总内存2.3TB HBM3e,内存带宽64TB/s,FP4/FP6精度下峰值算力161PFLOPS [39][41] 软件生态 - 全新AI软件栈ROCm 7.0推理性能提升4倍以上,训练性能提升3倍,支持主流模型Day 0级支持,首度支持Windows系统 [12] - ROCm 7引入分布式推理方法,与SGLang、vLLM等开源框架协作,运行DeepSeek R1 FP8精度时吞吐量比B200高30% [85][86] - AMD推出开发者云,提供即时访问MI300X GPU,预装流行AI软件,率先注册开发者可获得25小时免费积分 [92][93] 基础设施 - 下一代"Helios"AI机架级解决方案支持72块MI400系列GPU,FP4峰值算力2.9EFLOPS,HBM4内存容量、带宽等指标比英伟达Oberon机架高50% [14][19][21] - Helios集成EPYC "Venice" CPU、MI400系列GPU和Pensando "Vulcano" NIC,其中EPYC "Venice"采用2nm制程,基于Zen 6架构,最多256核 [21] - AMD剧透2027年将推出下一代机架级解决方案,集成EPYC "Verano" CPU、MI500系列GPU和Pensando "Vulcano" NIC [24] 行业趋势 - 数据中心AI加速器TAM市场将年增60%以上,2028年达5000亿美元,推理将成为AI计算最大驱动力,未来几年年增80%以上 [30] - 全球10大AI公司中有7家正大规模部署AMD Instinct GPU [34] - AMD设定2030年新目标:将机架级能效提高20倍,使目前需275个机架的AI模型能在1个机架内训练,运营用电量减少95% [118]