系统性工程突破 - 财报，业绩电话会，研报，新闻

系统性工程突破

搜索文档

21世纪经济报道· 2025-07-07 16:56

核心观点 - 华为昇腾CloudMatrix 384超节点在部分性能上超越英伟达GB200机柜，整体计算能力达后者的1.6倍[1][13] - 昇腾通过集群化设计弥补单芯片性能差距，实现从"备胎"到"主力"的转变，成功训练出千亿参数大模型[3][6][32] - 昇腾在算力利用率（MFU）上达到全球一流水平，稠密模型MFU超50%，MoE模型达41%-45%[9][10] - 昇腾384超节点采用光互联等系统性工程突破，实现384芯片高效协同，技术路径与英伟达差异化[16][21][29] 技术性能对比 - 单芯片性能为英伟达Blackwell的三分之一，但384超节点通过5倍芯片数量实现系统算力反超[13] - 推理性能对标英伟达H100，在DeepSeek-R1模型测试中算力利用率获全场最佳[11] - 英伟达GB200机柜仅集成72块GPU（下一代144块），华为突破384芯片互联技术[19][20] 技术路径创新 - 采用全对等互联架构与光缆连接，传输效率优于英伟达NVLink铜缆方案[27][29] - 结合鲲鹏CPU与昇腾NPU协同优化，实现"数学补物理"的系统级创新[24][32] - 自研CANN软件栈替代CUDA生态，支持分钟级故障恢复等工程优化[32] 行业竞争格局 - 国内AI芯片形成三大派系：科技巨头（华为/百度/阿里）、纯芯片厂商（寒武纪/燧原等）、细分领域企业（地平线等）[36] - 英伟达仍保持3nm工艺领先优势，CUDA生态历史积淀深厚[33][34] - 美国制裁背景下，昇腾在中国市场加速替代英伟达H20受限产品[36][37] 发展前景 - 华为通过"面积换性能"策略开辟中国特色技术曲线，实现弯道超车[38][39] - 昇腾已验证国产芯片训练千亿参数模型能力，标志国产算力进入实用阶段[6][40]

21世纪经济报道· 2025-07-07 11:18

华为昇腾技术架构 - 昇腾最强战力为"CloudMatrix 384超节点"，包含384张昇腾910芯片和192颗鲲鹏CPU，通过16个机柜和光缆/光模块联接形成高效协同系统 [2] - 相比英伟达GB200机柜仅72块GPU（下一代144块），华为通过复杂系统工程实现384芯片互联，突破稳定性难题 [3][4] - 采用"全对等互联总线"技术，取消数据中转环节，所有芯片地位平等，显著提升传输效率 [8] 核心技术突破 - 选择光缆替代铜缆互联，带宽更大（速度提升8倍）、延迟更低（纳秒级），但成本更高 [10] - 结合华为光通信技术优势，在芯片内建立高速互联通道，支撑超节点架构 [11] - 通过数学算法调度优化（算力利用率达50%）、软硬件协同设计（CANN替代CUDA）、工程散热等系统性创新弥补单芯片性能差距 [11][12] 竞争策略与行业格局 - 采用"群计算补单芯片"路径：通过超节点架构、多卡堆叠高带宽、分钟级故障恢复等组合方案实现实用级性能 [12] - 当前差距：英伟达3nm工艺领先、CUDA生态更成熟、全球开发者社群更庞大 [14][15][16] - 中国市场形成三大AI芯片派系：科技巨头系（华为/百度/阿里）、纯芯片厂商（寒武纪/GPU四小龙）、细分领域创新企业（地平线等） [16] 行业发展意义 - 昇腾路线代表中国特色技术曲线：在单芯片受限情况下，通过系统级优化（面积换性能、堆叠换容量）实现弯道超车 [16] - 美国技术封锁反而加速国内半导体产业链自主创新，昇腾成为国产算力逆袭的关键突破口 [16][17]