华为cloudMatrix 384

搜索文档
国内AI芯片的出货量、供需关系
傅里叶的猫· 2025-07-21 23:42
中国AI芯片市场概况 - 2025年中国AI加速器市场规模预计达到395亿美元 其中Nvidia H20占229亿美元 AMD MI308占20亿美元 本土厂商(华为Ascend 寒武纪 海光)合计146亿美元 [2] - H20禁令导致Nvidia损失16.8亿美元 AMD损失1.5亿美元 部分订单转移至本土厂商使其收入增加约10% 但由于7nm晶圆和CoWoS技术瓶颈 仍存在126亿美元供应缺口 [2] - Nvidia计划恢复H20销售 预计2025Q3中期恢复生产 需求达105亿美元 但无法满足168亿美元初期需求 部分需求将推迟至2026年 [2] 主要厂商市场份额 - 华为在国内AI芯片市场遥遥领先 占有率23% 其次是寒武纪 海光和平头哥 [16][20][21] - 互联网云服务提供商是主要买家 字节跳动 腾讯 阿里巴巴和百度占H20总销量的87% [3][5] - 至2027年 本土厂商市场份额预计将达55% 全球厂商将面临技术停滞 [3] 产品性能对比 - B30芯片相比H20性能大幅降低 FP16 TFLOPS降低54% FP8 TFLOPS降低68% 内存容量降低68% 带宽降低40% [4] - Nvidia计划向中国运送40万颗B30芯片 预计带来28亿美元收入 本土厂商额外收益约15亿美元 [3] 国产GPU厂商发展 - 沐曦营收连年递增 即将上市 [29][31] - 摩尔线程产品线覆盖AI服务器GPU 专业图形加速和桌面GPU 2024年AI计算GPU出货大幅提升营收 [35][36][37] - 华为CloudMatrix 384已在华为云运行 显示其技术实力 [20] 数据差异说明 - Bernstein和IDC数据存在较大差异 除华为和英伟达外 其他厂商排名和份额差异显著 [16] - 运营商主要采购华为AI芯片 其他国产GPU厂商未进入采购名单 [24]
计算机行业周度:英伟达GB300上线-20250721
国新证券· 2025-07-21 20:20
报告行业投资评级 - 看好 [6] 报告的核心观点 - 本周(7.14 - 7.18)计算机(申万)板块上涨2.12%,跑赢沪深300指数1.03个百分点,涨幅排名位列申万行业第8位 [1][13] - 英伟达GB300服务器是AI算力基础设施新里程碑,其GB300 NVL72系统性能优势显著,产业化进程推动供应链调整,市场需求增长 [2][18][19] - 超节点技术路径竞争中,国产方案有差异化优势但多机柜弹性扩展能力弱于英伟达 [23] - 虽存在挑战,但GB300将引领AI算力向ExaFLOPS级别迈进,相关产业如光通信、PCB等迎来投资机会 [24][26] 根据相关目录分别进行总结 本周市场回顾 - 计算机(申万)板块本周(7.14 - 7.18)上涨2.12%,沪深300指数上涨1.09%,计算机板块跑赢沪深300指数1.03个百分点,涨幅排名第8 [1][13] - 计算机行业335家上市公司中225家收涨,涨幅前3为熙菱信息(+27.08%)、ST立方(+26.86%)、延华智能(+24.04%),跌幅前3为大智慧(-17.51%)、金证股份(-10.85%)、京北方(-10.61%) [16] 本周关注 - GB300服务器技术进展与产业链影响分析 GB300服务器的技术进展与性能优势 - 英伟达GB300服务器整合三大关键技术,GB300芯片采用台积电4NP制程,集成2080亿晶体管,通过10TB/s片间互联实现性能突破 [19] - NVL72系统以72颗GPU和36颗Grace CPU构建单机柜算力单元,理论峰值算力达1.1 ExaFLOPS,较上一代Hopper架构有显著提升 [19] - 液冷技术规模化应用,以戴尔服务器为例,单个机柜可承载192个GPU,散热效率提升30% [20] 供应链动态与市场扩张 - 2025年Q2,GB200 NVL72机架月产能达2000 - 2500台,Q2总产量预计5000 - 6000台,鸿海目标交付3000 - 4000台,广达GB300计划9月量产 [2][21] - 采购主力为北美四大云厂商及OpenAI,中东“主权AI”订单成新增量,TrendForce预测2025年英伟达GPU总出货量约800万颗,GB200相关芯片占比50% [21] 超节点技术路径的竞争与国产化突破 - 英伟达GB200 NVL72通过NVLink 5.0实现72个GPU全互联,单节点带宽1.8TB/s;华为CloudMatrix 384连接384个昇腾NPU,节点间延迟<1μs且带宽衰减<3% [23] - 国产方案在推理场景有优势,华为CM384算力利用率达55%,较传统方案提升50%,但多机柜弹性扩展弱于英伟达模块化设计 [23] 挑战与未来展望 - 光铜之争、液冷技术路径分化、AMD技术处于实验室阶段等挑战存在,但GB300仍将引领AI算力发展 [24] - 华为和英伟达新技术有发展前景,技术路线存在生态开放性博弈,GB300市场渗透速度依赖生态开放策略 [25] 投资线索 - 光通信:GB300推动1.6T光模块普及,传输速率提升2倍,功耗降低30% - 35%,2025年全球高端光模块需求提升 [4] - 内存与封装技术:GB300核心组件集成HBM3e内存,依赖2.5D/3D先进封装技术,CoWoS封装产能是供应瓶颈 [27] - PCB升级:GB300推动服务器PCB向高多层演进,2025年AI专用PCB产值预计大幅增长 [28] - 液冷与IDC基建:单机柜功率突破使液冷渗透率从2024年的约10%提升至2025年的30%以上,高端AI训练服务器领域超90% [7] - 供电与配套革新:GB300 NVL72机柜标配相关模块及电容,通过分级响应机制解决电压波动问题 [7] 本周要闻 - HashKey Exchange对接Coins.ph系统布局东南亚市场,为两地用户提供便捷金融服务 [29] - 黄仁勋宣布美国批准H20芯片销往中国,英伟达将推出RTXpro GPU [31] - Meta将建设多个吉瓦级数据中心,首个预计2026年上线,受此消息影响股价上涨1.1% [32][33] - 百度萝卜快跑与Uber达成战略合作,将拓展至全球多个市场 [34] - OpenAI引入谷歌构建混合云生态,对谷歌云业务是利好 [36] - 美国国会批准稳定币法案待特朗普签字生效,众议院通过加密货币监管框架法案待参议院审议 [38][39]
计算机行业周报:超节点:从单卡突破到集群重构-20250709
申万宏源证券· 2025-07-09 15:44
报告行业投资评级 - 看好 [3] 报告的核心观点 - 大模型参数爆炸式增长驱动下,算力需求从单点转向系统级整合,超节点在机柜级互联与跨机柜组网技术上取得突破,单柜高密度与多机柜互联双向扩展,背后是通信协议与工程成本的平衡 [4] - 国产超节点方案以华为 CloudMatrix 384 为代表,实现算力规模突破,打破单卡性能瓶颈,验证了国产方案在大规模组网中的工程能力 [4] - 超节点产业化将重塑算力产业链分工,催生服务器整合、光通信增量及液冷渗透提升等投资机会,芯片厂商纵向整合趋势明显 [4] - 市场当前对超节点的认知存在两大预期差,一是低估国产方案在推理场景的性价比优势,二是忽视算力网络架构变革对产业链的重构 [4] - 建议关注光通信、网络设备与芯片、数据中心产业链、铜连接、AI 芯片与服务器供应商等领域相关标的 [4] 根据相关目录分别进行总结 超节点:AI 算力网络新趋势 - Scale up 和 Scale out 是算力系统扩容的两个重要维度,分别追求硬件紧密耦合和弹性扩展,二者在协议栈、硬件、容错机制上存在本质差异,通信效率不同 [15] - 英伟达在 Hopper GPU 一代尝试突破服务器架构、在机柜层级拓展 Scale up 系统,2024 年推出的 GB200 NVL72 是较为成熟的超节点产品,通过单层 NVSwitch 实现全互联,应对通信峰值能力显著提升 [27][32] - AMD 的 IF128 方案尝试融合以太网技术,打破 Scale-up 与 Scale-out 边界,预计将在 26H2 推出搭载 128 个 MI450X 的超节点产品 [38][43] - 特斯拉 Dojo 专为视频等视觉训练数据打造,采用 2D Mesh 拓扑结构,但进展不及预期,其封闭生态和 2D Mesh 拓扑结构为重要掣肘 [50][67] 超节点掣肘?华为的解答 - 超节点设计需考虑模型需求、IDC 实践和成本等因素,在模型角度 72 卡规模以上的 Scale up 节点是较优选择,未来更大规模的超节点预计是必然选择;在 IDC 实践角度,模块化布局利于交付和运维;在成本角度,光通信等组网成本、系统复杂度和维护制约了超节点 Scale up 的规模设计 [72][77][79] - 华为 CloudMatrix 384 超节点通过两层 UB Switch 实现全互联,形成无带宽收敛的 Clos 网络拓扑,实测数据显示其对性能影响较小,该超节点算力为 NVL72 的 1.7 倍,内存为 3.6 倍,更适合未来 AI 工作负载 [82][92][95] - 华为 CM384 机柜为推理而生,针对 Prefill 和 Decode 两大阶段进行了针对性优化;深度适配 DeepSeek,机柜内资源调度灵活性强,但多机柜灵活性差;在国产 AI 芯片方案中已经具备一定性价比,体现在单算力的吞吐 [100][107][119] 产业链影响:分工细化,各环节均有增量 - 服务器产业链分工细化,AI 芯片厂商纵向整合,提升自身通信、存储、软件等能力是确定趋势,代工产业链分工可能进一步分化为板卡设计代工供应商、以及机柜代工供应商,相关标的包括海光信息、中科曙光等 [123][128] - 光通信方面,国产超节点方案带来光模块增量,预计增加 400G 或 LPO 等成本优化方案的采购,同时加速向 800G 演进,整体光模块的需求比最高可达 1:18,相关标的包括华工科技、光迅科技等 [129][139] - 铜连接方面,华为 UB-Mesh 网络架构具备降低成本、增强可靠性等特性,更长时间维度看,光通信是 Scale up 网络需求的演进方向,光电混合是当前重要架构,相关标的包括意华股份、瑞可达等 [140][144] - IDC 产业链方面,以 Cloud Matrix 为代表的超节点方案预计将增加 AIDC 需求,液冷是必要选项,相关标的包括润泽科技、奥飞数据等 [149][151] 重要公司估值 - 报告给出了海光信息、中科曙光、浪潮信息等多家公司 2024A-2027E 的归母净利润及 PE 等估值数据 [153]
GPU集群怎么连?谈谈热门的超节点
半导体行业观察· 2025-05-19 09:27
超节点服务器概念与背景 - 超节点服务器是应对AI算力需求爆炸式增长的最优解,通过高效整合海量计算单元(CPU/GPU/TPU)实现前所未有的计算密度和效率[4][6] - AI模型参数从亿级跃升至万亿级,传统服务器显存和算力无法满足需求,模型并行成为必然选择但受限于服务器间网络带宽瓶颈[9] - 超节点三大核心特征:极致计算密度(单空间最大化算力)、强大内部互联(NVLink等技术)、AI负载深度优化(软硬件协同设计)[10] 技术演进历程 - 早期追求服务器密度的尝试(如1999年谷歌"软木板服务器")与超节点有本质区别,前者侧重资源池化而非算力整合[12] - GPU并行计算能力崛起成为关键转折点,Transformer等大模型推动NVLink等高速互联技术发展[13] - 英伟达DGX/HGX系列将8GPU+NVSwitch高度集成,形成典型超节点单元[14] 行业需求驱动因素 - AI大模型遵循规模定律(Scaling Law),模型规模与训练数据量增长直接带来算力需求指数级上升[16] - 长序列处理需求提升模型性能但显存需求急剧增加,2025年斯坦福报告显示训练算力年增长率达10倍[18][20] - 传统扩展方式面临三大瓶颈:内存墙(数据供给不足)、规模墙(集群扩展收益递减)、通信墙(并行计算通信开销)[21] 技术优势与解决方案 - 构建超大带宽域(HBD)实现纵向扩展(Scale-Up),8GPU服务器内通信带宽达130TB/s[22][37] - 集中式供电方案提升效率,液冷技术使PUE优于传统风冷,长期运营成本降低[24][26] - 模块化设计优化运维,大型风扇墙和集成电源组件比传统方案节能30%以上[26][29] 关键技术挑战 - 供电系统需应对100kW+机柜功耗,电压从48V向400/800V演进以减少线路损耗[31] - 冷却系统采用冷板式/浸没式液冷应对单芯片1000W+ TDP,散热效率提升5-10倍[32] - 网络系统需平衡铜缆/光缆成本与性能,InfiniBand和RoCE成为主流互联方案[32][37] 行业技术现状 - 英伟达GB200 NVL72集成72个Blackwell GPU,采用NVLink实现36CPU+72GPU逻辑统一,定义行业标准[35][37] - 华为CloudMatrix 384通过384颗昇腾芯片全光互联实现自主可控,但功耗较高[38][41] - 供电技术向48V直流母线槽演进,液冷采用直触式冷板技术,网络倾向RoCE以太网[33][34][37] 未来技术方向 - 数据中心供电向400V/800V高压直流(HVDC)转型,减少AC-DC转换损耗[40][43] - 下一代液冷技术包括微流控冷却(芯片表面蚀刻微通道)和相变液冷(利用潜热)[45] - 共封装光学(CPO)技术将光模块集成至芯片封装,提升I/O带宽密度并降低功耗[49] 行业影响与展望 - 超节点是AI算力基础设施的集大成者,融合芯片/互联/制冷/供电等尖端技术[46] - 技术演进将催生全新系统架构,如计算/内存/存储资源池化通过光路互联[49] - 行业正从单机柜级向跨机柜级超节点发展,推动AI集群算力规模突破现有上限[22][41]