Workflow
昇腾CloudMatrix 384超节点
icon
搜索文档
华为芯片,究竟有多牛?(上)
21世纪经济报道· 2025-07-06 11:12
华为昇腾芯片性能突破 - 昇腾384超节点整体计算能力达英伟达GB200机柜的1.6倍 [3][10] - 单芯片性能为英伟达Blackwell三分之一,但通过5倍芯片数量堆叠实现系统算力反超 [10] - 在DeepSeek-R1大模型推理实战中,昇腾算力利用率表现最佳,对标英伟达H100 [10] 昇腾技术进展与成果 - 昇腾910从"备胎"升级为训练千亿参数大模型的主力芯片 [4][6] - 使用8192颗昇腾芯片训练1350亿参数稠密大模型"盘古Ultra",MFU超50% [6][9] - 6000多颗芯片训练7180亿参数MoE大模型,MFU达41%-45% [6][9] 昇腾与英伟达竞争格局 - 昇腾在AI推理环节已广泛应用,模型训练能力2024年后显著提升 [4][5] - 采用集群剑阵策略弥补单卡性能差距,实现系统级性能领先 [2][10] - 海外机构SemiAnalysis确认昇腾系统算力超越英伟达最新产品 [3][10] 国产算力发展现状 - 昇腾成为国产AI芯片标杆,突破制裁限制实现自主训练能力 [4][6] - 技术论文验证国产芯片可支撑千亿级参数大模型训练 [6] - 算力利用率(MFU)指标达到全球一流水平 [9][10]
科创板迎硬核玩家:沐曦IPO获受理 ,国产GPU上市提速
21世纪经济报道· 2025-07-01 20:52
沐曦IPO及募资计划 - 沐曦科创板IPO获受理,拟募资39.04亿元,主要用于新一代通用GPU、AI推理芯片及前沿异构计算架构的研发与产业化 [1] - 公司成立仅五年,被视为国产算力挑战国际巨头的生力军之一,目前仍处于亏损状态 [1] - 沐曦GPU产品累计销量超过25000颗,已在多个国家人工智能公共算力平台和商业化智算中心实现规模化应用 [3] 公司财务及研发投入 - 2022年—2024年营收分别为42.6万元、5302.1万元和7.43亿元,增速显著,但同期净亏损7.8亿元、8.7亿元、14.1亿元,三年总亏30.6亿元 [3] - 最近3年累计研发投入占营业收入比例高达282.11%,累计研发投入金额为22亿元 [3] - 亏损原因包括国产芯片渗透率低、技术标准适配及用户习惯迁移障碍、大额研发投入和股份支付费用等 [3] 行业竞争格局 - 国内AI芯片市场渗透率显著上升,但仍处于发展初期,竞争格局未明朗 [1] - 主要竞争对手包括海光信息、天数智芯、壁仞科技、摩尔线程(通用GPU)及华为海思、寒武纪、昆仑芯、燧原科技(专用ASIC/DSA) [1] - 国产GPU厂商在软硬协同、自主IP等方面取得实质性进步,但与国际巨头英伟达在制程工艺、CUDA生态等方面仍有差距 [5] 产品与技术 - 沐曦核心产品包括通用GPU"曦云C系列"、推理GPU"曦思N系列"、图形渲染GPU"曦彩G系列",主要面向数据中心市场 [2] - "曦云C系列"基于全自研GPU IP、指令集和架构,在通用性、单卡性能、集群性能等方面达到国内领先水平 [3] - 公司构建MXMACA软件生态,兼容主流标准 [3] 政策与市场环境 - 科创板深化改革"1+6"政策为尚未盈利但拥有核心技术的"硬科技"企业提供上市便利 [4] - AI大模型兴起、"东数西算"工程推进及美国对AI芯片管制加速国产GPU替代进程 [5] - 预计2025年中国AI服务器市场中,国产芯片占比将增至40%,英伟达等企业占比降至41.5% [7] 国产GPU生态发展 - 国产GPU生态迈入体系化、工程化建设新阶段,从芯片研制到生态支撑需长期技术积累 [7] - 科技巨头(华为、百度等)、纯芯片厂商(寒武纪、沐曦等)及细分市场企业(地平线等)三大派系共同推动国产化 [5][6][7] - 华为昇腾、百度昆仑芯等已实现技术突破,与GPU厂商形成协同效应 [6]
华为突破制裁的密码,藏在“384超节点”中
虎嗅APP· 2025-06-17 18:55
核心观点 - 华为通过系统工程创新弥补芯片工艺落后问题,推出"昇腾 CloudMatrix 384超节点"算力集群解决方案,性能超越英伟达B200 NVL 72平台 [3][4] - 公司采用"以非摩尔补摩尔、以集群补单芯片"策略,通过全互联对等架构和全局资源调度实现算力突破 [3][4][8] - 昇腾生态通过兼容主流框架和推出迁移工具逐步解决"易用性"问题,并计划开源盘古模型技术代码 [12][13] 技术突破 架构设计 - 采用全对等高速互联架构,通信带宽提升15倍,单跳时延从2微秒降至200纳秒 [8] - 实现全局内存统一编址,支持跨节点直接内存访问,优化大模型训练中的参数同步效率 [8] - 细粒度动态切分技术将计算与通信耗时比从1:1提升至3:1,针对MoE模型专家分布优化资源分配 [8] 协同创新 - 集结超万人团队跨部门作战,整合硬件工程、基础软件等领域积累实现技术协同 [9][10] - 利用自研400G光模块和OXC技术解决大规模集群互联问题 [9] - 内部"技术飞轮"机制通过基础大模型研发反哺算力底座优化 [10] 性能表现 - 384颗昇腾芯片提供300 PFLOPs稠密BF16算力,超越英伟达B200 NVL 72平台的180 PFLOPs [3] - 盘古Ultra MoE准万亿模型和Pro MoE模型在SuperCLUE榜单取得百亿模型榜首成绩 [10] - 大模型训练故障恢复时间从小时级缩短至分钟级 [13] 生态建设 - CANN异构计算架构兼容PyTorch/TensorFlow等主流框架 [12] - 昇思MindSpore推出MSAdaptor迁移工具,保持与PyTorch API一致性 [12] - 组建"小巧灵突击队"深入关基行业提供现场支持 [13]
华为揭秘:国产昇腾训出世界一流大模型
观察者网· 2025-05-30 16:35
华为盘古Ultra MoE模型发布 - 公司推出参数规模高达7180亿的全新模型盘古Ultra MoE 这是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型 [1] - 公司发布盘古Ultra MoE模型架构和训练方法的技术报告 披露众多技术细节 体现昇腾在超大规模MoE训练性能上的跨越 [1] - 模型架构采用Depth-Scaled Sandwich-Norm稳定架构和TinyInit小初始化方法 在昇腾平台上实现超过18TB数据的长期稳定训练 [1] - 提出EP loss负载优化方法 保证专家间负载均衡并提升领域特化能力 [1] - 使用业界先进的MLA和MTP架构 在预训练和后训练阶段采用Dropless训练策略 实现模型效果与效率的最佳平衡 [1] 训练方法创新 - 在昇腾CloudMatrix 384超节点上高效打通大稀疏比MoE强化学习后训练框架关键技术 使RL后训练进入超节点集群时代 [2] - 预训练系统加速技术完成迭代升级 包括自适应流水掩盖策略 算子执行序优化 内存优化策略 数据重排等 [2] - 技术升级使万卡集群预训练MFU由30%大幅提升至41% [2] - 盘古Pro MoE大模型参数量720亿 激活160亿参数量 通过动态激活专家网络设计 实现媲美千亿级模型的性能 [2] - 盘古Pro MoE在SuperCLUE 2025年5月排行榜上位居千亿参数量以内大模型排行并列国内第一 [2] 行业影响 - 公司完成国产算力+国产模型全流程自主可控的训练实践 [3] - 集群训练系统性能实现业界领先 [3] - 国产AI基础设施自主创新能力得到进一步验证 为中国人工智能产业发展提供支持 [3]
910C的下一代
信息平权· 2025-04-20 17:33
华为昇腾CloudMatrix与UB-Mesh技术分析 核心观点 - 华为发布的CloudMatrix 384超节点与UB-Mesh论文描述的架构存在显著差异 表明两者属于不同代际或应用场景的技术方案 [1][8] - CloudMatrix已实现384颗NPU光互联商用 而UB-Mesh论文提出8000颗NPU超节点构想 显示技术路线存在分级演进可能 [8][9] - 华为在超节点网络架构积累可能超越英伟达 尤其在分布式交换和拓扑优化方面展现独特优势 [10][11] 技术架构差异 - **硬件形态**:UB-Mesh采用1U机箱 每机柜64NPU 而CloudMatrix单机柜32NPU(384/12) 物理结构完全不同 [1] - **互联协议**:CloudMatrix采用光互联实现384NPU商用 UB-Mesh提出电互联(机柜内)+光互联(机柜间)混合方案 [5][9] - **NPU设计**:UB-Mesh描述的NPU集成分布式交换功能 可能对应昇腾910C下一代设计 当前910C尚未具备此能力 [10] 性能与成本争议 - **功耗对比**:CloudMatrix单机柜约50KW 支持风冷 而英伟达NVL72达145KW 但整体能效需结合电力基础设施评估 [2][5] - **光模块优势**:华为垂直整合光模块产业链 可能通过规模效应将400G模块成本降至竞争对手1/3以下 [3][6] - **传输速率**:华为自研光模块可实现8x64G=512Gbps单模速率 远超行业标准400G(8x50G)设计 [4] 行业竞争格局 - **技术路线**:英伟达转向全电互联(NVL72) 华为坚持光电混合方案 在超大规模集群(8000NPU)领域形成差异化 [8][9] - **生态构建**:中国AI基础设施可能形成独立生态 DeepSeek等应用需求正反向推动国产硬件创新 [11] - **工程能力**:中国企业在1-10阶段工程化优势显著 光模块等核心部件成本压缩速度超国际预期 [6][12] 技术演进方向 - **代际划分**:CloudMatrix 384代表UB1.0商用方案 UB-Mesh论文预示UB2.0将支持8000NPU级超节点 [11] - **拓扑优化**:分级拓扑成为趋势 机柜内电互联+机柜间光互联方案平衡性能与成本 [9][10] - **延迟控制**:分布式交换架构使Mesh拓扑实现all2all通信 逻辑延迟可能低于Clos架构 [10]