GB200 NVL72

搜索文档
售价2000万的GB200 NVL72,划算吗?
半导体行业观察· 2025-08-22 09:17
公众号记得加星标⭐️,第一时间看推送不会错过。 来源 :内容 编译自 semianalysis 。 过去18个月,H100服务器的价格有所下降,目前约为每台19万美元。对于典型的超大规模数据中心 而言,包括存储、网络和其他项目,每台服务器的前期资本总成本高达25万美元。 以 GB200 NVL72 为例,对于典型的超大规模数据中心来说,仅机架式服务器的成本就高达 310 万 美元 (约2000万人民币) 。如果加上网络、存储和其他组件,每个机架的总成本约为 390 万美元。 当 比 较 从 超 大 规 模 企 业 到 Neocloud 巨 头 再 到 新 兴 Neoclouds 的 所 有 三 种 买 家 类 型 时 , GB200 NVL72 每 GPU 的全部资本成本约为 H100 每 GPU 的全部资本成本的 1.6 倍到 1.7 倍。 | | | Al Cloud Capital Cost of Ownership | | | | | | | --- | --- | --- | --- | --- | --- | --- | --- | | | | Hyperscaler | | | Neocloud ...
GB200出货量上修,但NVL72目前尚未大规模训练
傅里叶的猫· 2025-08-20 19:32
GB200/300机架出货预测 - 2025年GB200/300机架出货量从3万上调至3.4万,其中Q3预计出货1.16万,Q4预计出货1.57万 [3] - GB200与GB300机架占比分别为87%和13% [3] - 上调主要受鸿海强劲指引推动,鸿海预计Q3 AI机架出货量环比增长300%,全年出货量预估达1.95万,占市场约57% [3] - 假设200万颗Blackwell芯片库存结转至2026年,下游组装商可能组装超6万机架 [3] - 主要代工厂偏好顺序为鸿海>纬创>广达 [3] GB200 NVL72与H100成本对比 - H100服务器价格下降至每台19万美元,超大规模数据中心运营商每台总Capex约25万美元 [12] - GB200 NVL72机架级系统服务器成本约310万美元,超大规模运营商总成本约390万美元每机架 [12] - GB200 NVL72每GPU全包资本成本为H100的1.6-1.7倍 [13] - 超大规模运营商H100每GPU Capex约3.1358万美元,GB200 NVL72为5.4166万美元 [13] - GB200 NVL72每GPU每小时Opex为4.09美元,H100为3.04美元,差异主要源于GB200芯片功耗更高(1200W vs 700W) [14] GB200 NVL72与H100性能比较 - GB200 NVL72总拥有成本(TCO)为H100的1.6倍,需至少比H100快1.6倍才能占据优势 [15] - 截至2025年5月GB200 NVL72性能/TCO尚未超过H100,但7月达到H100的1.5倍,预测未来3-6个月可能达2.7倍 [30] - 2025年7月GB200 NVL72吞吐量在Token/s/GPU方面达H100的2.5倍,12月预测BF16性能比H100好4.7倍,MFU达42.0% [31] - DeepSeek 670B预训练14.8T Token成本在2025年7月为4.5M美元(BF16),预测12月降至2.5M美元 [32] 软件优化与能耗表现 - 2024年1月至12月软件优化使H100 BF16 MFU从34%提升至54%,FP8从29.5%提升至39.5% [20] - FP8训练成本从每百万Token 0.72美元降至0.542美元,300B Token总成本从218k美元降至162k美元 [20] - 训练Llama3 405B模型15T Token能耗相当于3400个美国家庭年能耗 [25] - Llama3 70B模型在2048台H100上训练FP8能耗比64台H100高出10% [29] GB200 NVL72可靠性挑战 - 早期GB200 NVL72运营商普遍面临XID 149错误,背板卡匣连接器金镀层耐用性仅200次插拔 [34] - GB200 NVL72 MTBI为1000-3000 GPU-天,低于H100的2000-5000 GPU-天 [36] - 目前GB200 NVL72仅用于推理、小实验和开发工作,未用于大规模训练 [35] 行业趋势与建议 - SemiAnalysis建议英伟达扩展基准并增加透明度,公开hyperscaler和NCP基准数据 [16] - 建议加速GB200 NVL72诊断工具开发,加强ODM/OEM验收测试 [17] - 软件优化是性能提升关键,GB200 NVL72有潜力但可靠性是瓶颈,预测年底将主导市场 [37]
大摩:AI GPU芯片真实差距对比,英伟达Blackwell平台利润率高达77.6%,AMD表现不佳
美股IPO· 2025-08-19 08:31
AI推理解决方案运营表现 - 英伟达GB200 NVL72平台在100兆瓦AI工厂中实现最高利润率77.6%,预计利润达35亿美元 [3] - 谷歌TPU v6e pod以74.9%利润率排名第二,AWS Trn2 UltraServer利润率为62.5%,华为昇腾CloudMatrix 384平台利润率为47.9% [3] - AMD MI355X平台利润率为-28.2%,MI300X平台低至-64.0%,表现显著落后 [4] 芯片每小时收入对比 - 英伟达GB200 NVL72芯片每小时收入达7.5美元,HGX H200芯片为3.7美元,显著高于行业平均水平 [4] - 华为昇腾CloudMatrix 384平台GPU每小时收入1.9美元,AMD MI355X平台仅1.7美元 [4] - 其他芯片每小时收入集中在0.5至2.0美元区间,英伟达GB200 NVL72收入为行业平均值的3-15倍 [4][7] 供应商竞争力分析 - 英伟达在利润率与芯片收入两项指标均占据绝对领先地位 [3][4] - 谷歌自研TPU与AWS定制服务器表现优于多数第三方解决方案 [3] - AMD在AI推理领域面临严重亏损,技术或成本控制存在明显短板 [4]
全球科技-I 供应链:-OCP 峰会要点;AI 工厂分析;Rubin 时间表-Global Technology -AI Supply Chain Taiwan OCP Takeaways; AI Factory Analysis; Rubin Schedule
2025-08-18 09:00
行业与公司 - **行业**:全球科技行业,特别是AI供应链和半导体领域[1][9] - **公司**: - **NVIDIA**:Rubin芯片按计划推进,预计2026年量产[4] - **Broadcom & AMD**:在OCP研讨会上争论UALink与Ethernet技术优劣[2][10] - **Meta**:计划2026年部署1GW(Prometheus)和未来5GW(Hyperion)AI集群[3] - **TSMC**:2025年CoWoS产能分配中,NVIDIA占主导(63%)[86][100] --- 核心观点与论据 1. **AI工厂经济性** - **成本与利润**:100MW AI工厂在每百万token 0.2美元的价格下,年利润可达8.93亿美元,平均利润率超50%[43][47] - **TCO分析**:100MW AI推理设施的年TCO为3.3-8.07亿美元,硬件投资范围3.67-22.73亿美元[31][45] - **性能对比**:NVIDIA GB200 NVL72在性能和利润上领先,TPU因低成本策略逐步缩小差距[47][49] 2. **技术竞争(UALink vs. Ethernet)** - **Broadcom**:主张Ethernet灵活性(延迟250ns),不限定延迟以促进创新[2][10] - **AMD**:强调UALink标准化延迟(类似PCIe/CXL),确保AI工作负载性能,获云服务商支持[2][10] - **NVIDIA优势**:NVLink 5.0带宽1800GB/s,远超PCIe 5.0(126GB/s)[22] 3. **芯片与供应链动态** - **NVIDIA Rubin**:2025年10月首次流片,2026年Q2量产[4] - **CoWoS产能**:2025年TSMC预计生产510万颗芯片,GB200 NVL72服务器机架出货量达3万台[89][91] - **HBM需求**:2025年NVIDIA占全球HBM需求的72%,总需求预计增长至15.6亿GB[103][112] 4. **市场趋势与投资建议** - **推荐标的**: - **美国**:NVIDIA、Broadcom、Astera Labs[5][52] - **亚洲**:TSMC、三星、Alchip、MediaTek[5][52] - **云资本支出**:2026年预计增长31%至5820亿美元,AI服务器支出占比提升[64][65] --- 其他重要内容 1. **数据验证与限制** - **MLPerf基准**:理论TPS计算比实际高20%,因软件优化和规模效率限制[22][50] - **价格假设**:token定价基于GenAI API和GPU租赁成本,未考虑LLM竞争壁垒[44] 2. **供应链风险** - **CoWoS瓶颈**:非TSMC供应商(如Amkor/UMC)产能扩张缓慢,2025年TSMC仍占主导[87][94] - **电力约束**:AI数据中心扩张受电力供应限制,Meta的1GW集群需约10-200亿美元基础设施投资[14][45] 3. **区域动态** - **中国AI需求**:尽管NVIDIA游戏显卡降价,推理需求仍强劲[73] - **地缘风险**:部分公司(如华为、SMIC)受制裁影响,供应链需合规审查[116][117] --- 数据引用 - **NVIDIA GB200**:单机架TDP 132kW,100MW支持750机架[18] - **HBM成本**:2025年NVIDIA B300芯片HBM3e成本占816,077GB总需求[112] - **TSMC收入**:2025年AI相关收入占比25%,达145亿美元[61][110] (注:部分文档如[7][8][115]等为免责声明或重复内容,未纳入分析)
华为产业链分析
傅里叶的猫· 2025-08-15 23:10
华为整体业绩表现 - 2024年公司实现销售收入8,620.72亿元,同比增长22.4% [5] - 智能汽车解决方案业务收入同比大增474.40%,终端业务增长38.3%,数字能源业务增长24.4% [5] - 中国区收入达6,152.64亿元,欧洲-中东-非洲地区收入1,483.55亿元,亚太地区收入433.06亿元,美洲地区收入363.01亿元 [5] 华为云业务 - 2024年下半年中国公共云市场规模达241.1亿美元,IaaS占54.8%达132.1亿美元,PaaS占18.1%达43.7亿美元 [6] - 华为云以13.20%市场份额成为中国第二大公有云IaaS厂商,营收增速24.40%为行业第一 [6] - 生成式AI驱动公共云市场增速回暖,IaaS+PaaS市场同比增长15.8% [6] CloudMatrix 384技术对比 - 昇腾910C单卡性能780 TFLOPS,仅为英伟达GB200单卡性能2,500 TFLOPS的31% [10][11] - CloudMatrix 384集群性能达300 PFLOPS,是英伟达GB200 NVL72集群性能180 PFLOPS的1.7倍 [10][11] - 采用光缆互联技术实现低时延高带宽,HBM总带宽1,229 TB/s超英伟达576 TB/s的2.1倍 [11] 鸿蒙操作系统特性 - 采用自研微内核架构,摆脱Linux依赖,性能优于安卓宏内核和iOS混合内核 [12][13] - 分布式软总线技术实现设备互联速度提升3倍,最多支持4台设备协同 [13] - AI助手集成大模型能力,支持复杂指令理解和跨设备控制 [13] 昇腾芯片技术体系 - 昇腾910系列采用chiplet技术,集成Davinci Core和HBM组件,专攻云端训练推理场景 [18][20] - Mindspore框架市场份额达30.26%,仅次于Pytorch成为主流AI开发框架 [22] - 产品线覆盖AI模块、加速卡、边缘设备、服务器及集群五类场景 [20] 麒麟芯片技术突破 - 麒麟9020性能介于骁龙8+与8 Gen2之间,达到高端处理器水准 [23][24] - 麒麟X90采用泰山V3架构,16核主频超4.2GHz,能效比提升40% [24][25] - AI算力达同级x86芯片5倍,GPU图形渲染性能接近苹果A15 [25] 鲲鹏服务器生态 - 基于ARM架构打造高性能低功耗处理器,推动国产替代x86服务器芯片 [27][29] - 通过硬件开放、软件开源策略构建产业生态,支持openEuler和openGauss商业版 [29]
SemiAnalysis-华为 AI CloudMatrix 384:中国对标英伟达 GB200 NVL72 的答案
2025-08-15 09:24
**行业与公司** - 行业:人工智能(AI)加速器、高性能计算(HPC)、半导体制造 - 公司:华为(Huawei)、Nvidia、SMIC(中芯国际)、三星(Samsung)、TSMC(台积电) --- **核心观点与论据** **1 华为CloudMatrix 8的性能与架构** - **对标产品**:华为CloudMatrix 8(CM8)基于Ascend 10C芯片,直接对标Nvidia GB200 NVL72,部分指标超越Nvidia[3][4] - **系统级优势**:CM8在系统层面(加速器、网络、光学、软件)创新,而非仅芯片层面[4] - **关键指标**: - **计算性能**:CM8提供300 PFLOPS(BF16密集计算),比NVL72(180 PFLOPS)高1.7倍[10] - **内存带宽**:CM8为1,229 TB/s,是NVL72(576 TB/s)的2.1倍[10] - **功耗**:CM8全系统功耗559,378W,是NVL72(145,000W)的3.9倍,但中国无电力限制[10][12] **2 华为的供应链与制裁规避** - **芯片制造依赖**:Ascend 10C主要依赖TSMC 7nm工艺,而非SMIC[7][17] - **HBM来源**:三星是华为HBM主要供应商,通过第三方(如CoAsia Electronics)规避出口禁令[19][20] - **制裁规避手段**: - 通过Sophgo采购TSMC晶圆(价值5亿美元)[17] - 利用Faraday Technology“包装”HBM芯片,再拆解提取[21] **3 中国半导体产业的潜力与挑战** - **国内产能**:SMIC计划扩产至50,000片/月(7nm),但良率(5%-50%)和供应链(光刻胶、设备)仍是瓶颈[25][27] - **电力优势**:中国电力供应充足(煤炭、核能、可再生能源),支持高功耗AI基础设施[13][14] - **长期风险**:美国可能加强制裁,限制HBM、晶圆制造设备等关键领域[7][24] **4 CM8的架构细节与成本** - **网络设计**: - **Scale-Up**:采用全光学互联(5,760个400G LPO光模块),功耗和成本高于Nvidia铜互联[37][38] - **Scale-Out**:两层级拓扑,使用1,536个光模块[43] - **成本对比**: - CM8每GPU互联成本4,672美元(Nvidia为4,075美元),功耗159W/GPU(Nvidia为75W/GPU)[39] **5 华为与Nvidia的芯片级对比** - **Ascend 10C芯片**: - 性能为Nvidia B200的30%(780 TFLOPS vs 2,500 TFLOPS)[10] - 内存带宽3.2 TB/s(B200为8 TB/s)[10] - **系统级优势**:通过数量(384 GPU vs 72 GPU)和光学互联弥补单芯片劣势[10][47] --- **其他重要内容** - **光学技术**:华为采用线性可插拔光学(LPO)模块,降低功耗30%,但总量仍导致高功耗[44][45] - **地缘政治影响**:美国需关注中国通过第三方规避制裁的行为,尤其是HBM和晶圆制造设备[7][20] - **行业趋势**:AI基础设施竞争从芯片转向系统架构,电力供应成为关键差异化因素[5][15] --- **数据引用** - CM8全系统功耗:559,378W [10] - NVL72全系统功耗:145,000W [10] - SMIC晶圆产能:50,000片/月(7nm)[25] - HBM库存:100万颗(支持105万颗Ascend 10C)[19]
陷入芯“铜”危机
36氪· 2025-07-21 20:04
气候变化对铜供应的影响 - 到2035年约32%的全球半导体生产可能因气候变化相关的铜供应中断而受影响是当前水平的四倍 [1] - 全球最大铜生产国智利已在应对水资源短缺问题导致铜产量放缓 [1][3] - 为芯片产业供应铜的17个国家中大多数到2035年将面临干旱风险 [1][3] 铜在半导体行业的关键作用 - 铜在半导体中主要用于制造互连线路提供更高的电导率和中性极度的应变 [1] - 相较于铝导线铜线具有更高导电性、低电阻、低丝状息和可接受的失配效应在VLSI和UHQ应用中优势明显 [1] - 铜还被用于处理器、高密度存储的制造过程中如制造半导体材料的氧化物 [1] - 铜可用于制造半导体封装材料减少能量损失优化封装效果 [2] - 铜广泛应用于半导体器件中的金属化电容器被视为下一代存储器、计算机和通信技术中的重要组件 [2] 全球铜价走势 - 2011年-2012年月均价格7000-10000美元/吨受中国四万亿计划余温和全球经济复苏影响 [3] - 2014年-2015年价格跌至4500-5000美元/吨因全球经济增长放缓和铜矿产能过剩 [3] - 2021年-2022年价格达1104美元/吨进入结构性牛市受新能源车和光伏需求爆发影响 [3] - 2023年-2024年价格在9000-11000美元/吨高位震荡 [3] - 预测2025年下半年LME铜价将下探至9000美元/吨附近 [3] 铜在芯片制程中的应用演进 - 2014年22nm制程铜互连层数为12层 [4] - 2017年10nm制程铜互连层数为15层 [4] - 2020年7nm制程铜互连层数为18层 [4] - 2023年3nm制程铜互连层数为22层 [4] 英伟达推动铜需求增长 - 英伟达宣布将AI数据中心的短距离数据传输从光纤转向铜缆预计将大幅增加铜需求 [4] - GB200采用72个Blackwell GPU全互连的NVLink技术拥有超过2英里的NVLink铜缆 [4] - 使用铜而不是光学器件可以为每个服务器机架节省20千瓦的电力 [4] - GB200 NVL72在一个机架中配置72个GPU使用铜缆盒密集封装和互连GPU [5] - 单台GB200 NVL72服务器利用5000根NVLink铜缆总长度接近2英里 [5] - 2024-2025年GB200 NVL72出货量预计分别达到3000台和50000台 [5] 铜在AI和数据中心的需求 - GB200 NVL72相对于H100实现25倍能效提升30倍大型语言模型推论能力 [6] - 到2026年全球数据中心电力需求将以15%的复合年增长率增长 [6] - 到2030年AI数据中心将需要累计新增约260万吨铜需求占全球预期需求的2% [6] - 预计到2030年铜的供应缺口将达到400万吨 [6] 铜互连工艺技术 - 铜互连通过"大马士革"工艺实现铜的嵌入式填充 [7] - 与铝互连相比铜互连具有更低电阻率和更好抗电迁移性能 [7] - 铜在芯片中用于全局互连的"电流大动脉"、局部互连的"纳米导线"和三维堆叠的"垂直电梯" [7] 新能源产业对铜需求的影响 - 2024年全球精炼铜消费量为2733.2万吨同比增长2.92% [8] - 新能源产业占全球铜总需求的15%成为驱动铜市发展的核心力量 [8] - 纯电动汽车(BEV)的铜用量高达80公斤至83公斤大型车辆如纯电动大巴的铜用量高达224至369公斤 [8] - 比亚迪"海鸥"每辆车铜用量80公斤35370辆"海鸥"需铜总量达2829.6吨 [8] AI对铜需求的拉动 - 2022至2027年全球AI市场规模将以58%的复合增长率增长至约4000亿美元 [9] - 至2027年我国算力市场规模预计将达到1234.7 EFLOPS智能算力占比高达90%以上 [9] - 铜在数据中心配电系统中的用量占比高达75% [9]
策略点评:国产算力产业链贯通,行情催化在即
中银国际· 2025-07-13 16:02
核心观点 - 国产算力产业链“产业突破 - 业绩验证 - 需求验证”逻辑链条已打通,产业端国产 GPU 厂商上市、华为算力集群性能提升,硬件厂商业绩兑现,AI 大模型需求增长形成共振,产业进入高速增长周期,全产业链自主化进程提速,国产算力行情有望受催化,建议关注国产算力芯片、服务器、PCB、光通信厂商等 [3][4][8] 产业端情况 国产 GPU 厂商上市 - 6 月 30 日沐曦集成、摩尔线程科创板首发申请获受理,两家均为 GPU 芯片厂商,沐曦 GPU 产品累计销量超 25000 颗,摩尔线程构建全方位自主可控产品体系,填补 A 股全功能 GPU 空白,有望带动国产算力行情 [5] 华为算力集群性能提升 - 6 月 20 日华为开发者大会发布盘古大模型 5.5 与 CloudMatrix 384 超节点昇腾 AI 云服务,单卡推理吞吐量提升至 2300 Tokens/s,性能提升近 4 倍,在多项关键指标超越英伟达旗舰产品,标志国产算力系统级创新弥补单芯片短板 [6] 业绩端情况 - 7 月 7 日工业富联发布 2025 年中报业绩预告,预计二季度归母净利润 67.27 - 69.27 亿元,同比上升 47.72% - 52.11%,AI 服务器营收同比增超 60%,800G 交换机营收达 2024 全年 3 倍,云计算业务增长超 50%,预示算力产业链景气延续 [7] 需求端情况 - Tokens 是衡量算力需求重要指标,国产大模型及海外 AI 推理侧 Tokens 消耗量明显增长,火山引擎豆包大模型 tokens 日均调用量达 16.4 万亿,是发布时 137 倍,海外推理侧月度推理量较一年前增长 50 倍,需求进入加速拐点 [8] 国产算力产业链重点个股跟踪 |证券代码|证券简称|7 月 9 日收盘价(元)|7 月 9 日市盈率 PE(TTM)(倍)|市盈率分位数(%)|2025 年 Q1 营业收入增速(%)|2025 年 Q1 归母净利润增速(%)| | ---- | ---- | ---- | ---- | ---- | ---- | ---- | |688256.SH|寒武纪 - U|535.00|1,724.28|0.00|4,230.22|256.82| |688041.SH|海光信息|135.39|146.48|42.74|50.76|75.33| |300474.SZ|景嘉微|70.92|-177.82|——|-5.46|-375.50| |688521.SH|芯原股份|87.00|-74.46|——|22.49|-6.45| |000977.SZ|浪潮信息|51.28|30.84|52.21|165.31|52.78| |601138.SH|工业富联|26.60|21.77|90.19|35.16|24.99| |688981.SH|中芯国际|85.85|150.81|81.86|29.44|166.50| |002463.SZ|沪电股份|47.81|32.44|74.91|56.25|48.11| |002916.SZ|深南电路|118.09|39.58|79.10|20.75|29.47| |688668.SH|鼎通科技|63.37|60.84|77.57|95.25|190.12| |300308.SZ|中际旭创|145.30|28.10|25.81|37.82|56.83| |300502.SZ|新易盛|135.55|32.97|38.80|264.13|384.54| |300394.SZ|天孚通信|83.88|46.50|53.63|29.11|21.07| |603083.SH|剑桥科技|47.55|74.03|55.38|5.18|21.11| |688498.SH|源杰科技|199.90|-7,315.15|——|40.52|35.93|[10]
AMD 推进人工智能:MI350X 与 MI400 UALoE72、MI500 UAL256——SemiAnalysis
2025-06-16 00:03
纪要涉及的公司和行业 - **公司**:AMD、英伟达(Nvidia)、AWS、Meta、OpenAI、x.A、微软(Microsoft)、甲骨文(Oracle)、字节跳动(ByteDance)、台积电(TSMC) - **行业**:半导体、云计算、人工智能 纪要提到的核心观点和论据 AMD新产品竞争力 - **M50X/M55X**:在中⼩型LLMs推理的每TCO性能上可与英伟达HGX B200竞争,但M55X⾮机架级产品,在尖端模型推理或训练上⽆法与英伟达GB200 NVL72抗衡;M55X功耗⾼1.4倍,但TFLOPS吞吐量仅⽐M50X快不到10%,实际性能优势预计超10%;M50X和M55X在BF1/FP8/FP数据类型纸⾯规格能与HGX B200抗衡,M55X FP性能⽐B200 FP快2.2倍,但实际受功耗限制[7][11][15][16][17]。 - **M00系列**:有望在202年下半年成为与英伟达VR200 NVL1竞争的机架级解决⽅案;虽未采⽤真正UALink技术,但其基于以太⽹UALink在纵向扩展带宽上可与VR200 NVL1的NVLink竞争,且⽀持72个逻辑GPU纵向扩展规模;AMD宣布开发者云服务将M00按需定价降⾄1. 美元/⼩时/GPU,或使租⽤AMD GPU具竞争⼒[8][11][12][13]。 - **M500 UAL25**:2027年末发布,将配备25个物理/逻辑芯⽚,⽽VR00 NVL57仅1个[13]。 市场与客户 - **超⼤规模企业与AI实验室**:AMD产品总体拥有成本和每TCO性能潜⼒获超⼤规模企业和⼤型AI实验室共鸣,订单势头强劲;AWS⾸次⼤规模采购并部署AMD GPU⽤于租赁;Meta开始⽤AMD训练,参与M55X和M00项⽬;OpenAI欣赏AMD发展态势,x.A将⽤AMD系统进⾏⽣产级推理;甲骨文计划部署 万台M55X;微软少量订购M55,对M00部署持积极态度[58][59][60][61][62][64][65]。 - **Neocoud租赁市场**:专注AMD的Neocoud服务商少,导致AMD GPU租赁价格⾼,削弱成本竞争⼒;M00X和M25X需达特定租赁价格才能与英伟达H200竞争;AMD通过回租算⼒激励Neocoud支持,构建低风险商业模式;开发者云推出降低M00X租赁价格,但默认配额设置待优化[67][68][69][70][74][75][76][77]。 软件与技术 - **ROCm软件**:AMD发布专注推理性能的ROCm 7,宣称推理吞吐性能相⽐ROCm 平均提升3.5倍,服务DeepSeek R1时相⽐Nvidia B200有1. 倍优势;支持分布式推理,支持vLLM、SGLang和m - d编排框架,但m - d缺乏KVCache管理器等功能;对Triton内核编写库支持提升,对字节跳动Triton Distributed感兴趣;整合Mooncake Transfer Engine和DeepEP未开源;推出开发者云平台与积分计划及Python包“rocm”[82][83][84][86][88][89]。 - **PyTorch持续集成与测试**:AMD为M55芯⽚在PyTorch添加持续集成和⾃动化测试;英伟达积极推动开源B200 PyTorch持续集成,承诺捐赠8台B200给PyTorch Foundation;英伟达应加⼤对Backwe PyTorch持续集成投⼊,将消费级GPU纳⼊持续集成体系[91][92][93]。 - **MLPerf训练基准测试**:AMD⾸次提交单节点Lama2 70B LoRA微调和BERT训练的MLPerf训练测试结果,应参与更多实际场景训练基准测试;AMD MLPerf运⾏指南易复现,与英伟达形成对⽐[94][95][96]。 竞争与市场格局 - **英伟达DGX Lepton**:其商业战略可能推动AI计算资源商品化,使客户在不同云平台迁移推理⼯作负载,吸引关注推理和⼩规模训练的⽤⼾;但引发Neocoud不满,为AMD创造合作机会;对终端⽤⼾提升总体拥有成本效益,实现体验标准化[37][38][40][41][42][45]。 - **M55X营销话术**:AMD将M55X宣传为“机架级解决⽅案”不实,其集体性能⽐GB200 NVL72差18倍,在专家混合模型推理和训练的全对全通信及2D并⾏策略的全规约操作中性能远低于GB200 NVL72[46][47][48][49][54][55]。 其他重要但是可能被忽略的内容 - **AMD GPU分区项目**:AMD将⼤量资源浪费在GPU分区项⽬上,客户⽆此需求,客户希望AMD为多节点推理提供更好⽀持[98][99][100]。 - **M55X制造工艺**:AMD优化M55X芯粒架构,调整布局优化⼩芯⽚间通信,节省功耗与⾯积,但使D堆叠良率更重要;基础芯⽚速度升级,内存控制器支持更快HBME;计算芯⽚XCD从台积电N5制程升级⾄NP节点,启⽤计算单元数量变化,布局⽅向改变[104][105][106][107][108][109][111][112]。