Workflow
系统工程
icon
搜索文档
昇腾“算力突围战”:让中国算力训练出全球一流模型
第一财经· 2025-06-18 20:16
华为芯片研发进展 - 公司采用"数学补物理、非摩尔补摩尔、群计算补单芯片"的系统工程方法弥补单芯片工艺落后问题,实现实用化效果 [1][4] - 通过算法优化、硬件堆叠与生态协同的创新路径突破算力瓶颈,形成中国特色的解决方案 [2][13] - 创始人提出"不去想困难,干就完了"的务实研发态度 [3] 系统工程方法论 - 借鉴钱学森系统工程思想,将研究对象视为整体进行综合管理,通过整体优化弥补单点落后 [4] - 组建跨部门"大杂烩"团队,在散热/供电/高速/高密等工程领域实现极限突破 [5][6] - 86个实验室形成技术支柱,通过跨部门作战实现"根深叶茂"的技术协同效应 [7] 算力技术突破 - 开发CloudMatrix 384超节点技术,实现384张昇腾卡集群,单体规模全球最大 [11] - 超节点技术将机器间通信延迟从2微秒压缩至200纳秒,整体效能逼近理论极值 [13] - 采用自适应流水掩盖策略等技术,使万卡集群预训练MFU从30%提升至41% [9][10] 大模型研发成果 - 盘古72B大模型以720亿参数实现千亿级性能,获国内千亿内模型并列首位 [9] - 推出7180亿参数的盘古Ultra MoE模型,全流程在昇腾平台训练 [9] - 实验室数据显示MoE大模型训练MFU达45%,超越行业30%平均水平 [10] 架构创新 - 突破冯诺依曼架构限制,创新提出"全对等高速互联架构" [15] - 通过光通信技术将互联带宽提升15倍,实现资源池化与超级并行 [14] - 芯片堆叠技术积累十几项核心专利,完成2D到3D架构跃迁 [14] 生态建设 - 逐步开放底层技术,支持DeepSeek MoE/千问/Llama等开源模型 [18] - 核心算子从十万级缩减至几百个,快速补齐高质量基础算子 [18] - 推动算法主导权向垂直领域专家转移,加速AI行业落地 [20] 行业影响 - 推动算力竞争从"芯片制程竞赛"转向"系统架构革命" [13] - 终结全球算力焦虑,使算力从"奢侈品"变为"自来水" [11] - 证明国产算力能训练全球一流大模型,缩小与海外代际差距 [11][13]
用“系统工程”打破算力封锁 昇腾的另类突围路径
每日经济新闻· 2025-06-17 13:56
昇腾算力技术突破 - 昇腾384超节点已开始发货,这是目前业界规模最大的超节点,由384颗昇腾AI芯片组成集群,提供高达300 PFLOPs的密集BF16算力,性能接近英伟达GB200 NVL72系统的两倍 [1] - 华为通过系统工程方法优化计算、内存、通信调度,实现算力超越,内部组织算力会战整合各领域专家能力 [1] - 昇腾超节点采用全对等高速互联架构,打破传统以CPU为中心的冯诺依曼架构,扩展总线至整机柜甚至跨机柜 [7] 国产算力发展背景 - 美国对华芯片出口管制持续加码,影响英伟达约55亿美元的季度费用 [2] - 昇腾算力战略意义远超商业价值,正从被迫替代转向主动选择 [3][5] - 昇腾计算产业已发展为包括芯片、硬件、CANN、AI计算框架等全产业链体系 [4] 技术架构创新 - 采用自有标准"全对等互联架构",统一通信协议提升有效载荷,打造基于中国标准的解决方案 [8] - 引入光通信技术,使用3168根光纤和6912个400G光模块实现跨机架纵向扩展 [8] - 解决散热难题,采用液冷散热方案和高效风冷方案,研发微结构材料提升热传导效率 [8] 软件生态建设 - 华为CANN平台快速补齐高质量基础算子,核心算子从数万个收敛至数百个 [10] - 提供Day0迁移和一键部署工具链,支持客户采用混合策略逐步迁移至昇腾平台 [10] - 组建"小灵巧突击队"深入客户现场提供技术支持 [6] 能耗与性能平衡 - 昇腾384超节点功耗达英伟达NVL72的4.1倍,每FLOP功耗高出2.5倍 [11] - 国内电力供应相对充裕,无需受限于能耗约束 [11] - 将持续通过技术进步改进能源消耗,构筑AI时代核心竞争力 [11] 行业影响与意义 - 昇腾384超节点打破了国产算力"无法训练大模型"的质疑 [12] - 构建了英伟达之外的可靠第二选择 [12] - 开辟了不同于西方的创新路径,通过系统工程实现规模算力领先 [12]