Workflow
GB200 NVL72
icon
搜索文档
亚马逊(AMZN.US)开发专用冷却设备 应对AI时代GPU高能耗挑战
智通财经· 2025-07-10 14:41
云计算与AI硬件创新 - 亚马逊云计算部门开发了专门用于冷却下一代英伟达GPU的硬件设备"列间换热器"(IRHX),以解决高功耗AI芯片的散热问题[1] - 英伟达GPU是生成式AI爆发的核心硬件,但能耗极高,传统空气冷却方式无法满足需求[1] - 亚马逊曾考虑建设液冷数据中心,但因部署周期长、空间占用大、水资源消耗高而放弃[1] 技术解决方案与产品落地 - 新冷却设备IRHX可兼容现有及新建数据中心,通过P6e计算实例向客户提供服务[2] - 该方案适配英伟达GB200 NVL72高密度计算硬件,单机架集成72颗Blackwell GPU以训练大型AI模型[2] 自主研发战略与财务表现 - 亚马逊持续开发定制芯片、存储服务器和网络路由器等基础设施硬件,减少对第三方供应商依赖[2] - AWS第一季度运营利润率创2014年以来最佳,成为公司主要净利润来源[2]
计算机行业周报:超节点:从单卡突破到集群重构-20250709
申万宏源证券· 2025-07-09 15:44
报告行业投资评级 - 看好 [3] 报告的核心观点 - 大模型参数爆炸式增长驱动下,算力需求从单点转向系统级整合,超节点在机柜级互联与跨机柜组网技术上取得突破,单柜高密度与多机柜互联双向扩展,背后是通信协议与工程成本的平衡 [4] - 国产超节点方案以华为 CloudMatrix 384 为代表,实现算力规模突破,打破单卡性能瓶颈,验证了国产方案在大规模组网中的工程能力 [4] - 超节点产业化将重塑算力产业链分工,催生服务器整合、光通信增量及液冷渗透提升等投资机会,芯片厂商纵向整合趋势明显 [4] - 市场当前对超节点的认知存在两大预期差,一是低估国产方案在推理场景的性价比优势,二是忽视算力网络架构变革对产业链的重构 [4] - 建议关注光通信、网络设备与芯片、数据中心产业链、铜连接、AI 芯片与服务器供应商等领域相关标的 [4] 根据相关目录分别进行总结 超节点:AI 算力网络新趋势 - Scale up 和 Scale out 是算力系统扩容的两个重要维度,分别追求硬件紧密耦合和弹性扩展,二者在协议栈、硬件、容错机制上存在本质差异,通信效率不同 [15] - 英伟达在 Hopper GPU 一代尝试突破服务器架构、在机柜层级拓展 Scale up 系统,2024 年推出的 GB200 NVL72 是较为成熟的超节点产品,通过单层 NVSwitch 实现全互联,应对通信峰值能力显著提升 [27][32] - AMD 的 IF128 方案尝试融合以太网技术,打破 Scale-up 与 Scale-out 边界,预计将在 26H2 推出搭载 128 个 MI450X 的超节点产品 [38][43] - 特斯拉 Dojo 专为视频等视觉训练数据打造,采用 2D Mesh 拓扑结构,但进展不及预期,其封闭生态和 2D Mesh 拓扑结构为重要掣肘 [50][67] 超节点掣肘?华为的解答 - 超节点设计需考虑模型需求、IDC 实践和成本等因素,在模型角度 72 卡规模以上的 Scale up 节点是较优选择,未来更大规模的超节点预计是必然选择;在 IDC 实践角度,模块化布局利于交付和运维;在成本角度,光通信等组网成本、系统复杂度和维护制约了超节点 Scale up 的规模设计 [72][77][79] - 华为 CloudMatrix 384 超节点通过两层 UB Switch 实现全互联,形成无带宽收敛的 Clos 网络拓扑,实测数据显示其对性能影响较小,该超节点算力为 NVL72 的 1.7 倍,内存为 3.6 倍,更适合未来 AI 工作负载 [82][92][95] - 华为 CM384 机柜为推理而生,针对 Prefill 和 Decode 两大阶段进行了针对性优化;深度适配 DeepSeek,机柜内资源调度灵活性强,但多机柜灵活性差;在国产 AI 芯片方案中已经具备一定性价比,体现在单算力的吞吐 [100][107][119] 产业链影响:分工细化,各环节均有增量 - 服务器产业链分工细化,AI 芯片厂商纵向整合,提升自身通信、存储、软件等能力是确定趋势,代工产业链分工可能进一步分化为板卡设计代工供应商、以及机柜代工供应商,相关标的包括海光信息、中科曙光等 [123][128] - 光通信方面,国产超节点方案带来光模块增量,预计增加 400G 或 LPO 等成本优化方案的采购,同时加速向 800G 演进,整体光模块的需求比最高可达 1:18,相关标的包括华工科技、光迅科技等 [129][139] - 铜连接方面,华为 UB-Mesh 网络架构具备降低成本、增强可靠性等特性,更长时间维度看,光通信是 Scale up 网络需求的演进方向,光电混合是当前重要架构,相关标的包括意华股份、瑞可达等 [140][144] - IDC 产业链方面,以 Cloud Matrix 为代表的超节点方案预计将增加 AIDC 需求,液冷是必要选项,相关标的包括润泽科技、奥飞数据等 [149][151] 重要公司估值 - 报告给出了海光信息、中科曙光、浪潮信息等多家公司 2024A-2027E 的归母净利润及 PE 等估值数据 [153]
CoreWeave Becomes First Hyperscaler to Deploy NVIDIA GB300 NVL72 Platform
Prnewswire· 2025-07-04 00:14
文章核心观点 CoreWeave作为AI云服务提供商率先为客户部署最新NVIDIA GB300 NVL72系统并计划全球大规模扩展部署,持续在AI基础设施领域保持领先 [1][5] 分组1:GB300 NVL72系统情况 - NVIDIA GB300 NVL72在AI推理和智能体工作负载性能上有重大飞跃,用户响应速度最高提升10倍,每瓦吞吐量提高5倍,推理模型推理输出增加50倍 [2] 分组2:CoreWeave部署情况 - CoreWeave是首个为客户部署NVIDIA GB300 NVL72系统的AI云服务提供商,计划全球大规模扩展部署 [1] - CoreWeave与Dell、Switch和Vertiv合作构建GB300 NVL72系统初始部署,将最新NVIDIA GPU引入其AI云平台 [3] - GB300 NVL72部署与CoreWeave云原生软件栈紧密集成,硬件级数据和集群健康事件通过其收购的Weights & Biases开发者平台集成 [4] 分组3:CoreWeave过往成就 - CoreWeave此前率先提供NVIDIA H200 GPU,是首个让NVIDIA GB200 NVL72系统广泛可用的AI云服务提供商,此次GB300 NVL72初始部署扩展了其现有Blackwell机队 [5] - 2025年6月CoreWeave与NVIDIA和IBM合作,使用近2500个NVIDIA GB200 Grace Blackwell超级芯片提交最大规模MLPerf® Training v5.0基准测试,在最复杂模型Llama 3.1 405B上27.3分钟取得突破结果 [6] - CoreWeave是唯一获SemiAnalysis的GPU Cloud ClusterMAX™评级系统最高白金评级的超大规模云服务提供商 [6] 分组4:CoreWeave公司介绍 - CoreWeave是AI超大规模云服务提供商,提供前沿软件驱动的云平台,为企业和领先AI实验室提供加速计算云解决方案,自2017年在美欧运营数据中心,2024年入选TIME100最具影响力公司和福布斯云100榜单 [7]
Arm服务器出货,激增70%
半导体行业观察· 2025-07-01 09:03
IDC 在其最新的全球季度服务器追踪报告中估计,基于 Arm 架构的服务器今年将占全球总出货量的 21.1%,而不是Arm 基础设施主管 Mohamed Awad在 4 月份宣称的 50%。 公众号记得加星标⭐️,第一时间看推送不会错过。 来源:内容 编译自 theregister 。 基于 Arm 的服务器在市场上迅速获得关注,预计 2025 年出货量将增长 70%,然而,这仍然远远低 于该芯片设计商的目标,即到今年年底占据全球数据中心 CPU 销售额的一半。 市场观察机构 IDC 表示,Arm 服务器之所以受到广泛关注,主要得益于大型机架规模配置的推出, 例如专为AI 处理而设计的Nvidia DGX GB200 NVL72等系统。 配备至少一个GPU的服务器(有时被称为支持AI)预计将增长46.7%,几乎占今年市场总价值的一 半。超大规模客户和云服务提供商的快速采用正在推动服务器市场的发展,IDC表示,服务器市场规 模将在短短三年内增长两倍。 2025年第一季度,服务器市场整体规模达到创纪录的952亿美元,同比增长134.1%。因此,IDC将全 年服务器市场规模预测上调至3660亿美元,增幅达44.6% ...
Will CRWV's Platform Upgrades Help it Take the Lead in the AI Race?
ZACKS· 2025-06-24 21:46
公司业务发展 - 公司推出针对AI模型训练和推理优化的基础设施即服务(IaaS)及专业云软件与服务 具备独特竞争优势 [1] - 管理层预计到2030年AI将带来20万亿美元全球经济影响 2028年总可寻址市场(TAM)将达4000亿美元 [1] - 近期发布三款新AI云软件产品 包括训练问题诊断工具Mission Control Integration 开源模型测试平台W&B Inference 以及实时性能评估系统Weave Online Evaluations [2][8] - 率先大规模部署NVIDIA H100/H200 GPU和GB200 NVL72实例 并推出新一代AI对象存储 结合Kubernetes服务提供开箱即用的生产级解决方案 [3] 战略布局 - 聚焦四大领域:扩展容量 基础设施融资 增强平台差异化 扩大市场覆盖能力 [4] - 通过全球扩张进入新市场 深化现有客户合作并拓展新客户群 [4] - 2025年5月收购Weights & Biases后首次推出软件产品更新 [2][8] 行业竞争格局 - 微软(MSFT)凭借Azure平台和OpenAI数十亿美元投资占据AI基础设施主导地位 近期与NVIDIA合作推出Azure AI Foundry微服务等新功能 [5] - Nebius Group(NBIS)专注于AI全栈基础设施 在欧洲部署NVIDIA GB200超级芯片 并在美国 欧洲 中东新增数据中心 [6] 财务表现与估值 - 年内股价累计上涨3342% 远超互联网软件行业131%的涨幅 [7] - 远期市销率达1031倍 高于行业平均568倍 [9] - 2025年Zacks一致盈利预测在过去30天维持不变 当前季度至2026年预测值均为亏损 [10][11]
Nebius Is The Only Pure Play On Europe's AI Sovereignty
Seeking Alpha· 2025-06-24 00:59
公司融资与业务进展 - Nebius在8周内完成10亿美元两批次可转换票据定价,发行时间为6月5日 [1] - 公司同步实现NVIDIA GB200 NVL72产品的即时交付 [1] 技术认证与行业地位 - 公司获得"AWS Certified AI Practitioner Early Adopter"认证,显示其在AI实践领域的早期领先地位 [1] - 团队包含来自财富500强企业的DevOps工程师,具备AI工具构建、部署及维护的实战经验 [1] 技术能力与研发投入 - 团队成员拥有生成式AI系统的深度科学知识,涵盖机器学习算法、模型训练及部署等全流程 [1] - 正推进更高级别的AWS机器学习认证,以强化AI与机器学习领域的技术壁垒 [1] 行业影响力 - 公司技术专家通过Seeking Alpha平台分享AI与机器学习的投资视角,在TipRanks的31,393名财经博主中排名第792位 [1]
用“系统工程”打破算力封锁 昇腾的另类突围路径
每日经济新闻· 2025-06-17 13:56
昇腾算力技术突破 - 昇腾384超节点已开始发货,这是目前业界规模最大的超节点,由384颗昇腾AI芯片组成集群,提供高达300 PFLOPs的密集BF16算力,性能接近英伟达GB200 NVL72系统的两倍 [1] - 华为通过系统工程方法优化计算、内存、通信调度,实现算力超越,内部组织算力会战整合各领域专家能力 [1] - 昇腾超节点采用全对等高速互联架构,打破传统以CPU为中心的冯诺依曼架构,扩展总线至整机柜甚至跨机柜 [7] 国产算力发展背景 - 美国对华芯片出口管制持续加码,影响英伟达约55亿美元的季度费用 [2] - 昇腾算力战略意义远超商业价值,正从被迫替代转向主动选择 [3][5] - 昇腾计算产业已发展为包括芯片、硬件、CANN、AI计算框架等全产业链体系 [4] 技术架构创新 - 采用自有标准"全对等互联架构",统一通信协议提升有效载荷,打造基于中国标准的解决方案 [8] - 引入光通信技术,使用3168根光纤和6912个400G光模块实现跨机架纵向扩展 [8] - 解决散热难题,采用液冷散热方案和高效风冷方案,研发微结构材料提升热传导效率 [8] 软件生态建设 - 华为CANN平台快速补齐高质量基础算子,核心算子从数万个收敛至数百个 [10] - 提供Day0迁移和一键部署工具链,支持客户采用混合策略逐步迁移至昇腾平台 [10] - 组建"小灵巧突击队"深入客户现场提供技术支持 [6] 能耗与性能平衡 - 昇腾384超节点功耗达英伟达NVL72的4.1倍,每FLOP功耗高出2.5倍 [11] - 国内电力供应相对充裕,无需受限于能耗约束 [11] - 将持续通过技术进步改进能源消耗,构筑AI时代核心竞争力 [11] 行业影响与意义 - 昇腾384超节点打破了国产算力"无法训练大模型"的质疑 [12] - 构建了英伟达之外的可靠第二选择 [12] - 开辟了不同于西方的创新路径,通过系统工程实现规模算力领先 [12]
AMD 推进人工智能:MI350X 与 MI400 UALoE72、MI500 UAL256——SemiAnalysis
2025-06-16 00:03
纪要涉及的公司和行业 - **公司**:AMD、英伟达(Nvidia)、AWS、Meta、OpenAI、x.A、微软(Microsoft)、甲骨文(Oracle)、字节跳动(ByteDance)、台积电(TSMC) - **行业**:半导体、云计算、人工智能 纪要提到的核心观点和论据 AMD新产品竞争力 - **M50X/M55X**:在中⼩型LLMs推理的每TCO性能上可与英伟达HGX B200竞争,但M55X⾮机架级产品,在尖端模型推理或训练上⽆法与英伟达GB200 NVL72抗衡;M55X功耗⾼1.4倍,但TFLOPS吞吐量仅⽐M50X快不到10%,实际性能优势预计超10%;M50X和M55X在BF1/FP8/FP数据类型纸⾯规格能与HGX B200抗衡,M55X FP性能⽐B200 FP快2.2倍,但实际受功耗限制[7][11][15][16][17]。 - **M00系列**:有望在202年下半年成为与英伟达VR200 NVL1竞争的机架级解决⽅案;虽未采⽤真正UALink技术,但其基于以太⽹UALink在纵向扩展带宽上可与VR200 NVL1的NVLink竞争,且⽀持72个逻辑GPU纵向扩展规模;AMD宣布开发者云服务将M00按需定价降⾄1. 美元/⼩时/GPU,或使租⽤AMD GPU具竞争⼒[8][11][12][13]。 - **M500 UAL25**:2027年末发布,将配备25个物理/逻辑芯⽚,⽽VR00 NVL57仅1个[13]。 市场与客户 - **超⼤规模企业与AI实验室**:AMD产品总体拥有成本和每TCO性能潜⼒获超⼤规模企业和⼤型AI实验室共鸣,订单势头强劲;AWS⾸次⼤规模采购并部署AMD GPU⽤于租赁;Meta开始⽤AMD训练,参与M55X和M00项⽬;OpenAI欣赏AMD发展态势,x.A将⽤AMD系统进⾏⽣产级推理;甲骨文计划部署 万台M55X;微软少量订购M55,对M00部署持积极态度[58][59][60][61][62][64][65]。 - **Neocoud租赁市场**:专注AMD的Neocoud服务商少,导致AMD GPU租赁价格⾼,削弱成本竞争⼒;M00X和M25X需达特定租赁价格才能与英伟达H200竞争;AMD通过回租算⼒激励Neocoud支持,构建低风险商业模式;开发者云推出降低M00X租赁价格,但默认配额设置待优化[67][68][69][70][74][75][76][77]。 软件与技术 - **ROCm软件**:AMD发布专注推理性能的ROCm 7,宣称推理吞吐性能相⽐ROCm 平均提升3.5倍,服务DeepSeek R1时相⽐Nvidia B200有1. 倍优势;支持分布式推理,支持vLLM、SGLang和m - d编排框架,但m - d缺乏KVCache管理器等功能;对Triton内核编写库支持提升,对字节跳动Triton Distributed感兴趣;整合Mooncake Transfer Engine和DeepEP未开源;推出开发者云平台与积分计划及Python包“rocm”[82][83][84][86][88][89]。 - **PyTorch持续集成与测试**:AMD为M55芯⽚在PyTorch添加持续集成和⾃动化测试;英伟达积极推动开源B200 PyTorch持续集成,承诺捐赠8台B200给PyTorch Foundation;英伟达应加⼤对Backwe PyTorch持续集成投⼊,将消费级GPU纳⼊持续集成体系[91][92][93]。 - **MLPerf训练基准测试**:AMD⾸次提交单节点Lama2 70B LoRA微调和BERT训练的MLPerf训练测试结果,应参与更多实际场景训练基准测试;AMD MLPerf运⾏指南易复现,与英伟达形成对⽐[94][95][96]。 竞争与市场格局 - **英伟达DGX Lepton**:其商业战略可能推动AI计算资源商品化,使客户在不同云平台迁移推理⼯作负载,吸引关注推理和⼩规模训练的⽤⼾;但引发Neocoud不满,为AMD创造合作机会;对终端⽤⼾提升总体拥有成本效益,实现体验标准化[37][38][40][41][42][45]。 - **M55X营销话术**:AMD将M55X宣传为“机架级解决⽅案”不实,其集体性能⽐GB200 NVL72差18倍,在专家混合模型推理和训练的全对全通信及2D并⾏策略的全规约操作中性能远低于GB200 NVL72[46][47][48][49][54][55]。 其他重要但是可能被忽略的内容 - **AMD GPU分区项目**:AMD将⼤量资源浪费在GPU分区项⽬上,客户⽆此需求,客户希望AMD为多节点推理提供更好⽀持[98][99][100]。 - **M55X制造工艺**:AMD优化M55X芯粒架构,调整布局优化⼩芯⽚间通信,节省功耗与⾯积,但使D堆叠良率更重要;基础芯⽚速度升级,内存控制器支持更快HBME;计算芯⽚XCD从台积电N5制程升级⾄NP节点,启⽤计算单元数量变化,布局⽅向改变[104][105][106][107][108][109][111][112]。
华为“算力核弹”超越英伟达的秘密
观察者网· 2025-06-12 22:21
行业趋势 - AI算力竞赛进入"系统级对决"时代,单卡性能的"摩尔定律神话"正被架构革命重构 [1] - 中国AI算力生态从"单点突围"转向"系统升维",计算-存储-网络协同创新成为关键 [1] - 大模型Scaling Law推动算力需求指数级增长,集群化、系统化算力方案成为大势所趋 [11] 华为昇腾CLoudMatrix 384超节点技术 - 算力规模达300PFlops,反超英伟达NVL72达70%,网络互联带宽提升107%,内存带宽提升113% [14] - 采用"全对等架构"重构传统计算架构,通过高速互联总线实现CPU、NPU、存储等资源池化,通信带宽提升15倍,时延降低10倍 [18][20] - 应用3168根光纤和6912个400G光模块,突破传统铜线传输距离限制,支持跨机柜扩展 [20][21] - 支持万卡级扩展能力,可构建Atlas 900 SuperCluster超节点集群,目标"终结行业算力焦虑" [7][14] 英伟达竞争态势 - 英伟达GB200 NVL72超节点采用NVLink技术,总算力180PFlops,网络带宽130TB/s,内存带宽576TB/s [12] - 中国市场占比从95%降至50%,黄仁勋公开承认华为技术超越,呼吁美国政府放宽管制 [5][9][22] - 最新禁令导致英伟达计提55亿美元库存损失,2025财年收入1305亿美元(同比+114%),净利润729亿美元(同比+145%) [5] 国产算力实践突破 - 华为云在昇腾平台实现准万亿盘古Ultra MoE模型全流程训练,验证国产算力全链条自主能力 [1][26] - DeepSeek MoE模型在昇腾超节点实现媲美英伟达H100的推理效果,支持一卡一专家分布式推理 [25] - 华为液冷技术使数据中心PUE降至1.12,比行业平均节能70%,超节点功耗为英伟达4.1倍但电力供应非制约因素 [27][28] 技术封锁下的创新路径 - 华为提出"用数学补物理"、"非摩尔补摩尔"、"系统补单点"三大思想,基于现有工艺实现架构突破 [11] - 光通信等传统优势技术跨域复用,凸显中国在系统级创新中的独特路径 [1][21] - 昇腾云脑实现"1-3-10"故障响应标准,1分钟感知、3分钟定位、10分钟恢复 [21]
CoreWeave Stock Skyrockets 137% in a Month: Hold or Fold?
ZACKS· 2025-06-12 22:01
Key Takeaways CRWV stock soared 137% in a month, beating gains from MSFT, AMZN, and the broader tech sector. Surging AI demand led to a 420% jump in Q1 revenues, while the $11.9B OpenAI deal adds further upside. CRWV guides 2025 revenue at $4.9B-$5.1B, backed by increasing demand and a $259B revenue backlog.CoreWeave, Inc. (CRWV) stock has gained 136.6% in the past month and closed last session at $149.70, jumping more than threefold from its initial opening price of $39. It has outperformed the 5.4% grow ...