Workflow
昇腾CloudMatrix 384超节点
icon
搜索文档
华为芯片,究竟有多牛?(上)
21世纪经济报道· 2025-07-06 11:12
0:00 21世纪经济报道记者倪雨晴 深圳报道 华为的昇腾,让英伟达黄教主都坐不住了。他公开表示,华为昇腾CloudMatrix 384超节点,部分性能上 甚至超过英伟达的产品。 华为的384超节点方案,就像全真七子用剑阵打黄药师,集群一起上,黄药师还真有点招架不住。 海外专业机构SemiAnalysis更是直接点名:384超节点的整体计算能力是英伟达GB200机柜的1.6倍! 在单芯片性能受限、制裁持续的情况下,华为昇腾是真能打,还是"自嗨"?它是如何与英伟达竞争的? 国产算力究竟到了什么水平?还有什么差距? 今天,我们就带着这些问题,一口气了解对垒英伟达的国产芯片,昇腾。 和英伟达"掰手腕" 目前昇腾最主力的产品叫"昇腾910"。但以往的昇腾芯片,更多是作为"备胎"使用的——因为美国断 供,英伟达、AMD最高端的芯片买不到,很多厂商只能硬着头皮用国产,而昇腾已经是国产芯片中的 佼佼者。 过去几年,昇腾其实主要用在AI"推理"环节,也就是模型训练好之后,用它来支持大模型生成内容、聊 天等应用环节。但模型训练?说实话——很少用国产芯片,原因也简单:单卡性能弱、生态不够用、系 统稳定性差。 但这一切,在2024 ...
科创板迎硬核玩家:沐曦IPO获受理 ,国产GPU上市提速
21世纪经济报道· 2025-07-01 20:52
沐曦IPO及募资计划 - 沐曦科创板IPO获受理,拟募资39.04亿元,主要用于新一代通用GPU、AI推理芯片及前沿异构计算架构的研发与产业化 [1] - 公司成立仅五年,被视为国产算力挑战国际巨头的生力军之一,目前仍处于亏损状态 [1] - 沐曦GPU产品累计销量超过25000颗,已在多个国家人工智能公共算力平台和商业化智算中心实现规模化应用 [3] 公司财务及研发投入 - 2022年—2024年营收分别为42.6万元、5302.1万元和7.43亿元,增速显著,但同期净亏损7.8亿元、8.7亿元、14.1亿元,三年总亏30.6亿元 [3] - 最近3年累计研发投入占营业收入比例高达282.11%,累计研发投入金额为22亿元 [3] - 亏损原因包括国产芯片渗透率低、技术标准适配及用户习惯迁移障碍、大额研发投入和股份支付费用等 [3] 行业竞争格局 - 国内AI芯片市场渗透率显著上升,但仍处于发展初期,竞争格局未明朗 [1] - 主要竞争对手包括海光信息、天数智芯、壁仞科技、摩尔线程(通用GPU)及华为海思、寒武纪、昆仑芯、燧原科技(专用ASIC/DSA) [1] - 国产GPU厂商在软硬协同、自主IP等方面取得实质性进步,但与国际巨头英伟达在制程工艺、CUDA生态等方面仍有差距 [5] 产品与技术 - 沐曦核心产品包括通用GPU"曦云C系列"、推理GPU"曦思N系列"、图形渲染GPU"曦彩G系列",主要面向数据中心市场 [2] - "曦云C系列"基于全自研GPU IP、指令集和架构,在通用性、单卡性能、集群性能等方面达到国内领先水平 [3] - 公司构建MXMACA软件生态,兼容主流标准 [3] 政策与市场环境 - 科创板深化改革"1+6"政策为尚未盈利但拥有核心技术的"硬科技"企业提供上市便利 [4] - AI大模型兴起、"东数西算"工程推进及美国对AI芯片管制加速国产GPU替代进程 [5] - 预计2025年中国AI服务器市场中,国产芯片占比将增至40%,英伟达等企业占比降至41.5% [7] 国产GPU生态发展 - 国产GPU生态迈入体系化、工程化建设新阶段,从芯片研制到生态支撑需长期技术积累 [7] - 科技巨头(华为、百度等)、纯芯片厂商(寒武纪、沐曦等)及细分市场企业(地平线等)三大派系共同推动国产化 [5][6][7] - 华为昇腾、百度昆仑芯等已实现技术突破,与GPU厂商形成协同效应 [6]
华为突破制裁的密码,藏在“384超节点”中
虎嗅APP· 2025-06-17 18:55
HUAWEI X HUXIU 在通往通用人工智能(AGI)的路上,如何像其他领域一样实现弯道超车,是业界绕不开的 话题。 在过去的十余年时间里,各项单点技术飞速演进,但随着单点技术演进的边际效应递减和系 统复杂度的提升,系统性能的天花板逐步从单点技术的上限演变成系统工程上限:单点优势 越来越像是精致的零件,提升空间有限;但采用系统工程创新,各个部分完美配合、高效协 同,实现整个系统的效能最优,才有更积极的现实意义。 如何在发挥单点技术优势的同时,以整体视角重新构建路径,通过对复杂系统的极致把控与 再组织、找到新的突破可能?解决这个看似不可能的问题,就有望为我们独立引领最前沿技 术发展创造条件。 近期,虎嗅将推出《华为技术披露集》系列内容,通过一系列技术报告,首次全面详述相关 技术细节,为业界提供参考价值。 我们期待通过本系列内容,携手更多伙伴共同构建开放协作的生态系统,助力昇腾生态在中 国的蓬勃发展。 "以非摩尔补摩尔、以集群补单芯片" 在讨论华为如何短时间内实现赶超的问题前,我们需要先明确一个问题:"384超节点"算是华 为在制裁下的无奈之举吗? 不完全是。 除了制裁下寻求破局这个角度,华为打造"超节点"这 ...
华为“算力核弹”超越英伟达的秘密
观察者网· 2025-06-12 22:21
行业趋势 - AI算力竞赛进入"系统级对决"时代,单卡性能的"摩尔定律神话"正被架构革命重构 [1] - 中国AI算力生态从"单点突围"转向"系统升维",计算-存储-网络协同创新成为关键 [1] - 大模型Scaling Law推动算力需求指数级增长,集群化、系统化算力方案成为大势所趋 [11] 华为昇腾CLoudMatrix 384超节点技术 - 算力规模达300PFlops,反超英伟达NVL72达70%,网络互联带宽提升107%,内存带宽提升113% [14] - 采用"全对等架构"重构传统计算架构,通过高速互联总线实现CPU、NPU、存储等资源池化,通信带宽提升15倍,时延降低10倍 [18][20] - 应用3168根光纤和6912个400G光模块,突破传统铜线传输距离限制,支持跨机柜扩展 [20][21] - 支持万卡级扩展能力,可构建Atlas 900 SuperCluster超节点集群,目标"终结行业算力焦虑" [7][14] 英伟达竞争态势 - 英伟达GB200 NVL72超节点采用NVLink技术,总算力180PFlops,网络带宽130TB/s,内存带宽576TB/s [12] - 中国市场占比从95%降至50%,黄仁勋公开承认华为技术超越,呼吁美国政府放宽管制 [5][9][22] - 最新禁令导致英伟达计提55亿美元库存损失,2025财年收入1305亿美元(同比+114%),净利润729亿美元(同比+145%) [5] 国产算力实践突破 - 华为云在昇腾平台实现准万亿盘古Ultra MoE模型全流程训练,验证国产算力全链条自主能力 [1][26] - DeepSeek MoE模型在昇腾超节点实现媲美英伟达H100的推理效果,支持一卡一专家分布式推理 [25] - 华为液冷技术使数据中心PUE降至1.12,比行业平均节能70%,超节点功耗为英伟达4.1倍但电力供应非制约因素 [27][28] 技术封锁下的创新路径 - 华为提出"用数学补物理"、"非摩尔补摩尔"、"系统补单点"三大思想,基于现有工艺实现架构突破 [11] - 光通信等传统优势技术跨域复用,凸显中国在系统级创新中的独特路径 [1][21] - 昇腾云脑实现"1-3-10"故障响应标准,1分钟感知、3分钟定位、10分钟恢复 [21]
华为揭秘:国产昇腾训出世界一流大模型
观察者网· 2025-05-30 16:35
在训练方法上,华为团队首次披露在昇腾CloudMatrix 384超节点上,高效打通大稀疏比MoE强化学习 (RL)后训练框架的关键技术,使RL后训练进入超节点集群时代。同时,在5月初发布的预训练系统 加速技术基础上,在不到一个月的时间内,华为团队又完成了一轮迭代升级,包括:适配昇腾硬件的自 适应流水掩盖策略,进一步优化算子执行序,进一步降低Host-Bound以及提升EP通信的掩盖;自适应 管理内存优化策略的开发;数据重排实现DP间Attention负载均衡;以及昇腾亲和的算子优化,这些技 术实现万卡集群预训练MFU由30%大幅提升至41%。 此外,近期发布的盘古Pro MoE大模型,在参数量仅为720亿,激活160亿参数量的情况下,通过动态激 活专家网络的创新设计,实现了以小打大的优异性能,甚至可以媲美千亿级模型的性能表现。在业界权 威大模型榜单SuperCLUE最新公布的2025年5月排行榜上,位居千亿参数量以内大模型排行并列国内第 一。 华为盘古Ultra MoE和盘古Pro MoE系列模型的发布,证明华为不仅完成了国产算力+国产模型的全流程 自主可控的训练实践,同时在集群训练系统的性能上也实现了业界 ...
910C的下一代
信息平权· 2025-04-20 17:33
无论如何,眼下的线索已经可以假定CloudMatrix和UB-Mesh是在描述两种不同的硬件形态了。 在进一步分析这两个事物的关系前,想先引用一下前两天SemiAnalysis关于CloudMatrix的分析。 SemiAnalysis的分析师无疑都非常专业,比中国那些为了炒HWJ或者光纤电缆的小作文可强多了。 可文章中提到的关于CloudMatrix的两个弱点,却让人觉得他们又有点那么点菜菜。 以下文章来自夏 core 转发的神秘网友,是谁咱也不知道,总之截图了我们群里的消息 ... 华为发布的昇腾CloudMatrix 384超节点,号称采用UB互联完成了384颗NPU的互联,并号称能够与 Nvidia的NVL72比肩。好巧不巧,不久前的三月底,华为还发布了一篇名为 UB-Mesh的论文 ,也描述 了一种也被称为超节点的NPU互联结构。 确实也有传言说CloudMatrix的组网就是UB-Mesh,但也有人说不是,但如果不是,他们之间是个什么 关系呢? 不难发现,UB-Mesh的硬件全是1U的超薄Chasis,而CloudMatrix的Rack中,怎么看都找不到1U框的结 构。而且 ,如果数数量的话,UB ...