昇腾CloudMatrix 384

搜索文档
华为芯片,究竟有多牛?(上)
21世纪经济报道· 2025-07-06 11:12
华为昇腾芯片性能突破 - 昇腾384超节点整体计算能力达英伟达GB200机柜的1.6倍 [3][10] - 单芯片性能为英伟达Blackwell三分之一,但通过5倍芯片数量堆叠实现系统算力反超 [10] - 在DeepSeek-R1大模型推理实战中,昇腾算力利用率表现最佳,对标英伟达H100 [10] 昇腾技术进展与成果 - 昇腾910从"备胎"升级为训练千亿参数大模型的主力芯片 [4][6] - 使用8192颗昇腾芯片训练1350亿参数稠密大模型"盘古Ultra",MFU超50% [6][9] - 6000多颗芯片训练7180亿参数MoE大模型,MFU达41%-45% [6][9] 昇腾与英伟达竞争格局 - 昇腾在AI推理环节已广泛应用,模型训练能力2024年后显著提升 [4][5] - 采用集群剑阵策略弥补单卡性能差距,实现系统级性能领先 [2][10] - 海外机构SemiAnalysis确认昇腾系统算力超越英伟达最新产品 [3][10] 国产算力发展现状 - 昇腾成为国产AI芯片标杆,突破制裁限制实现自主训练能力 [4][6] - 技术论文验证国产芯片可支撑千亿级参数大模型训练 [6] - 算力利用率(MFU)指标达到全球一流水平 [9][10]
科创板迎硬核玩家:沐曦IPO获受理 ,国产GPU上市提速
21世纪经济报道· 2025-07-01 20:52
沐曦IPO及募资计划 - 沐曦科创板IPO获受理,拟募资39.04亿元,主要用于新一代通用GPU、AI推理芯片及前沿异构计算架构的研发与产业化 [1] - 公司成立仅五年,被视为国产算力挑战国际巨头的生力军之一,目前仍处于亏损状态 [1] - 沐曦GPU产品累计销量超过25000颗,已在多个国家人工智能公共算力平台和商业化智算中心实现规模化应用 [3] 公司财务及研发投入 - 2022年—2024年营收分别为42.6万元、5302.1万元和7.43亿元,增速显著,但同期净亏损7.8亿元、8.7亿元、14.1亿元,三年总亏30.6亿元 [3] - 最近3年累计研发投入占营业收入比例高达282.11%,累计研发投入金额为22亿元 [3] - 亏损原因包括国产芯片渗透率低、技术标准适配及用户习惯迁移障碍、大额研发投入和股份支付费用等 [3] 行业竞争格局 - 国内AI芯片市场渗透率显著上升,但仍处于发展初期,竞争格局未明朗 [1] - 主要竞争对手包括海光信息、天数智芯、壁仞科技、摩尔线程(通用GPU)及华为海思、寒武纪、昆仑芯、燧原科技(专用ASIC/DSA) [1] - 国产GPU厂商在软硬协同、自主IP等方面取得实质性进步,但与国际巨头英伟达在制程工艺、CUDA生态等方面仍有差距 [5] 产品与技术 - 沐曦核心产品包括通用GPU"曦云C系列"、推理GPU"曦思N系列"、图形渲染GPU"曦彩G系列",主要面向数据中心市场 [2] - "曦云C系列"基于全自研GPU IP、指令集和架构,在通用性、单卡性能、集群性能等方面达到国内领先水平 [3] - 公司构建MXMACA软件生态,兼容主流标准 [3] 政策与市场环境 - 科创板深化改革"1+6"政策为尚未盈利但拥有核心技术的"硬科技"企业提供上市便利 [4] - AI大模型兴起、"东数西算"工程推进及美国对AI芯片管制加速国产GPU替代进程 [5] - 预计2025年中国AI服务器市场中,国产芯片占比将增至40%,英伟达等企业占比降至41.5% [7] 国产GPU生态发展 - 国产GPU生态迈入体系化、工程化建设新阶段,从芯片研制到生态支撑需长期技术积累 [7] - 科技巨头(华为、百度等)、纯芯片厂商(寒武纪、沐曦等)及细分市场企业(地平线等)三大派系共同推动国产化 [5][6][7] - 华为昇腾、百度昆仑芯等已实现技术突破,与GPU厂商形成协同效应 [6]
华为突破制裁的密码,藏在“384超节点”中
虎嗅APP· 2025-06-17 18:55
核心观点 - 华为通过系统工程创新弥补芯片工艺落后问题,推出"昇腾 CloudMatrix 384超节点"算力集群解决方案,性能超越英伟达B200 NVL 72平台 [3][4] - 公司采用"以非摩尔补摩尔、以集群补单芯片"策略,通过全互联对等架构和全局资源调度实现算力突破 [3][4][8] - 昇腾生态通过兼容主流框架和推出迁移工具逐步解决"易用性"问题,并计划开源盘古模型技术代码 [12][13] 技术突破 架构设计 - 采用全对等高速互联架构,通信带宽提升15倍,单跳时延从2微秒降至200纳秒 [8] - 实现全局内存统一编址,支持跨节点直接内存访问,优化大模型训练中的参数同步效率 [8] - 细粒度动态切分技术将计算与通信耗时比从1:1提升至3:1,针对MoE模型专家分布优化资源分配 [8] 协同创新 - 集结超万人团队跨部门作战,整合硬件工程、基础软件等领域积累实现技术协同 [9][10] - 利用自研400G光模块和OXC技术解决大规模集群互联问题 [9] - 内部"技术飞轮"机制通过基础大模型研发反哺算力底座优化 [10] 性能表现 - 384颗昇腾芯片提供300 PFLOPs稠密BF16算力,超越英伟达B200 NVL 72平台的180 PFLOPs [3] - 盘古Ultra MoE准万亿模型和Pro MoE模型在SuperCLUE榜单取得百亿模型榜首成绩 [10] - 大模型训练故障恢复时间从小时级缩短至分钟级 [13] 生态建设 - CANN异构计算架构兼容PyTorch/TensorFlow等主流框架 [12] - 昇思MindSpore推出MSAdaptor迁移工具,保持与PyTorch API一致性 [12] - 组建"小巧灵突击队"深入关基行业提供现场支持 [13]
华为“算力核弹”超越英伟达的秘密
观察者网· 2025-06-12 22:21
行业趋势 - AI算力竞赛进入"系统级对决"时代,单卡性能的"摩尔定律神话"正被架构革命重构 [1] - 中国AI算力生态从"单点突围"转向"系统升维",计算-存储-网络协同创新成为关键 [1] - 大模型Scaling Law推动算力需求指数级增长,集群化、系统化算力方案成为大势所趋 [11] 华为昇腾CLoudMatrix 384超节点技术 - 算力规模达300PFlops,反超英伟达NVL72达70%,网络互联带宽提升107%,内存带宽提升113% [14] - 采用"全对等架构"重构传统计算架构,通过高速互联总线实现CPU、NPU、存储等资源池化,通信带宽提升15倍,时延降低10倍 [18][20] - 应用3168根光纤和6912个400G光模块,突破传统铜线传输距离限制,支持跨机柜扩展 [20][21] - 支持万卡级扩展能力,可构建Atlas 900 SuperCluster超节点集群,目标"终结行业算力焦虑" [7][14] 英伟达竞争态势 - 英伟达GB200 NVL72超节点采用NVLink技术,总算力180PFlops,网络带宽130TB/s,内存带宽576TB/s [12] - 中国市场占比从95%降至50%,黄仁勋公开承认华为技术超越,呼吁美国政府放宽管制 [5][9][22] - 最新禁令导致英伟达计提55亿美元库存损失,2025财年收入1305亿美元(同比+114%),净利润729亿美元(同比+145%) [5] 国产算力实践突破 - 华为云在昇腾平台实现准万亿盘古Ultra MoE模型全流程训练,验证国产算力全链条自主能力 [1][26] - DeepSeek MoE模型在昇腾超节点实现媲美英伟达H100的推理效果,支持一卡一专家分布式推理 [25] - 华为液冷技术使数据中心PUE降至1.12,比行业平均节能70%,超节点功耗为英伟达4.1倍但电力供应非制约因素 [27][28] 技术封锁下的创新路径 - 华为提出"用数学补物理"、"非摩尔补摩尔"、"系统补单点"三大思想,基于现有工艺实现架构突破 [11] - 光通信等传统优势技术跨域复用,凸显中国在系统级创新中的独特路径 [1][21] - 昇腾云脑实现"1-3-10"故障响应标准,1分钟感知、3分钟定位、10分钟恢复 [21]
华为的准万亿大模型,是如何训练的?
虎嗅APP· 2025-05-30 18:18
现在,请大家一起数一下"1"、"2"。 OK,短短2秒钟时间,一个准万亿MoE大模型就已经吃透如何解一道高等数学大题了。 HUAWEI X HUXIU 三分之一个世纪前,加拿大学者们提出了经典的MoE模型神经网络结构,在人类探索AI的 「石器时代」中,为后世留下了变革的火种。 近十年前,美国硅谷的互联网巨擎在理论和工程等方面,突破了MoE模型的原始架构,让这 个原本被置于学术高阁的理念,化身成为了随后AI竞争的导火索。 如今,后发优势再一次来到了大洋此岸,以华为为代表的中国科技企业,纷纷提出对MoE架 构的优化重组方案。尤其是华为的MoGE架构,不仅克服了MoE负载不均衡及效率瓶颈的弊 病,还能够降本增效,便于训练和部署。 AI之战远未终结,但正如在其他领域中「多快好省」的中国产业底色一样,大模型这棵生于 西方长于彼岸的科技树,也同样会被东方智慧经手后,进化为更加普适和亲切的工具。 近期,虎嗅将打造《华为技术披露集》系列内容,通过一连串的技术报告,首次全面披露相 关的技术细节。 希望本系列内容能为业界起到参考价值,也希望更多人能与华为一起,共同打造长期持续的 开放协作生态环境,让昇腾生态在中国茁壮成长。 《华 ...
华为揭秘:国产昇腾训出世界一流大模型
观察者网· 2025-05-30 16:35
在训练方法上,华为团队首次披露在昇腾CloudMatrix 384超节点上,高效打通大稀疏比MoE强化学习 (RL)后训练框架的关键技术,使RL后训练进入超节点集群时代。同时,在5月初发布的预训练系统 加速技术基础上,在不到一个月的时间内,华为团队又完成了一轮迭代升级,包括:适配昇腾硬件的自 适应流水掩盖策略,进一步优化算子执行序,进一步降低Host-Bound以及提升EP通信的掩盖;自适应 管理内存优化策略的开发;数据重排实现DP间Attention负载均衡;以及昇腾亲和的算子优化,这些技 术实现万卡集群预训练MFU由30%大幅提升至41%。 此外,近期发布的盘古Pro MoE大模型,在参数量仅为720亿,激活160亿参数量的情况下,通过动态激 活专家网络的创新设计,实现了以小打大的优异性能,甚至可以媲美千亿级模型的性能表现。在业界权 威大模型榜单SuperCLUE最新公布的2025年5月排行榜上,位居千亿参数量以内大模型排行并列国内第 一。 华为盘古Ultra MoE和盘古Pro MoE系列模型的发布,证明华为不仅完成了国产算力+国产模型的全流程 自主可控的训练实践,同时在集群训练系统的性能上也实现了业界 ...
智通决策参考︱5月行情值得期待
搜狐财经· 2025-05-06 08:53
【主编观市】 四月最后一天恒指往上,给五月行情带来指引。 一般放长假海外市场上涨的概率偏大,美股有几个催化: 1,海外AI巨头数据超预期,假期内大涨。如微软、mate等。 2,美国4月非农数据超预期。新增17.7万,大幅超出预估的13.8万增量。 3,特朗普做预期管理,不断释放各种签署协议的所谓利好。 优必选(09880) 2024 年公司实现营收 13.05 亿元,同比+23.7%;毛利润 3.74 亿元,同比+12.4%。主要得益于教育智能 机器人和定制智能机器人产品收入增长。 但这依然只能作为短期来看,看下伯克希尔的现金储备从2024年底的约3340亿美元上升至创纪录的3477 亿美元,显示巴菲特仍在等待合适的投资机会。 当地时间5月7日,美联储将公布最新利率决议。目前市场一致预期,美联储将按兵不动。 对国内而言,汇率走强才是关键,5月5日,离岸人民币盘中一度升穿7.20关口,为去年11月以来首次, 创近半年以来新高。亚洲其它货币也延续上周五的涨势,集体向上脉冲,这意味着美国经济衰退概率上 升、未来利率可能走低。市场普遍预期美元可能续贬值。 财政部今年赤字率按4%安排,比去年提高1个百分点,赤字规模达到 ...
910C的下一代
信息平权· 2025-04-20 17:33
华为昇腾CloudMatrix与UB-Mesh技术分析 核心观点 - 华为发布的CloudMatrix 384超节点与UB-Mesh论文描述的架构存在显著差异 表明两者属于不同代际或应用场景的技术方案 [1][8] - CloudMatrix已实现384颗NPU光互联商用 而UB-Mesh论文提出8000颗NPU超节点构想 显示技术路线存在分级演进可能 [8][9] - 华为在超节点网络架构积累可能超越英伟达 尤其在分布式交换和拓扑优化方面展现独特优势 [10][11] 技术架构差异 - **硬件形态**:UB-Mesh采用1U机箱 每机柜64NPU 而CloudMatrix单机柜32NPU(384/12) 物理结构完全不同 [1] - **互联协议**:CloudMatrix采用光互联实现384NPU商用 UB-Mesh提出电互联(机柜内)+光互联(机柜间)混合方案 [5][9] - **NPU设计**:UB-Mesh描述的NPU集成分布式交换功能 可能对应昇腾910C下一代设计 当前910C尚未具备此能力 [10] 性能与成本争议 - **功耗对比**:CloudMatrix单机柜约50KW 支持风冷 而英伟达NVL72达145KW 但整体能效需结合电力基础设施评估 [2][5] - **光模块优势**:华为垂直整合光模块产业链 可能通过规模效应将400G模块成本降至竞争对手1/3以下 [3][6] - **传输速率**:华为自研光模块可实现8x64G=512Gbps单模速率 远超行业标准400G(8x50G)设计 [4] 行业竞争格局 - **技术路线**:英伟达转向全电互联(NVL72) 华为坚持光电混合方案 在超大规模集群(8000NPU)领域形成差异化 [8][9] - **生态构建**:中国AI基础设施可能形成独立生态 DeepSeek等应用需求正反向推动国产硬件创新 [11] - **工程能力**:中国企业在1-10阶段工程化优势显著 光模块等核心部件成本压缩速度超国际预期 [6][12] 技术演进方向 - **代际划分**:CloudMatrix 384代表UB1.0商用方案 UB-Mesh论文预示UB2.0将支持8000NPU级超节点 [11] - **拓扑优化**:分级拓扑成为趋势 机柜内电互联+机柜间光互联方案平衡性能与成本 [9][10] - **延迟控制**:分布式交换架构使Mesh拓扑实现all2all通信 逻辑延迟可能低于Clos架构 [10]