Workflow
MindSpore
icon
搜索文档
华为超节点赶超英伟达:驾驭“光”很关键
观察者网· 2026-02-10 11:20
行业背景与需求 - 当前算力需求远未被满足,大模型进入生产系统及消费端导致token消耗量呈指数级增长,未来中国每日token消耗量可能突破千万亿 [3] - 简单堆砌服务器和芯片无法有效解决算力缺口,根据Meta论文,万卡集群训练时算力利用率仅约38%,存在高达62%的算力浪费,且模型训练每3小时中断一次 [3] - 集群网络通信已成为大模型训练和推理的主要挑战,计算单元间通信不畅会导致NPU闲置,造成效率低下,出现1+1<2的结果 [3] 超节点的定义与核心特点 - 超节点是对传统计算架构的重构,从以CPU为中心转变为全平等互联架构,CPU、NPU和内存单元无需经过CPU即可直接互联,提升了通信效率 [4] - 真正的超节点需具备三大关键特点:足够大的带宽以确保计算不等待通信、足够低的时延、形成逻辑上的单一系统,其核心在于内存的统一编址 [6] - 统一内存编址技术是实现超节点的关键,它使内存能够池化,从而实现计算单元间的数据快速交换,提升计算效率 [6] 超节点的性能优势 - 超节点相比传统集群的最大优势是显著提升计算效率,可将模型算力利用率从30%提升至45%,相当于性能提升50% [7] - 在摩尔定律放缓、芯片制程从7纳米到3纳米每代性能提升不超过20%的背景下,超节点通过高效资源调度,能在一定程度上弥补芯片工艺的代差 [7] 华为超节点的技术实现与创新 - 华为昇腾384超节点由12个计算柜和4个总线柜构成,其核心创新在于采用光通信技术实现超高速互联,突破了电信号传输距离(通常2-5米)的限制,从而能够规模商用384颗芯片互联,并未来支持8192颗芯片互联 [8] - 光模块技术面临成本高、对环境敏感(如灰尘、温度变化易导致闪断)等挑战,实现如电一般可靠、如光一般长距离传输难度很大 [8] - 华为凭借系统化创新实现了全光互联超节点,其能力源于自研芯片、光器件、底层协议以及在光通信领域超过20年的全球领先技术积累 [9] - 华为构建了新型互联协议“灵衢UB”(UnifiedBus),并将灵衢2.0规范开放,其基础协议长达600页,是业界最详细完整的协议,旨在与产业界共创繁荣生态 [11][12] 华为超节点的产品布局 - 华为不仅在发展智算超节点(如昇腾384),也在发展通算超节点,例如基于鲲鹏950处理器的TaiShan 950超节点,这是全球首个通用计算超节点,计划于2026年一季度上市 [9] - TaiShan 950超节点结合分布式GaussDB数据库,旨在取代各种应用场景的大型机、小型机以及Oracle的Exadata数据库服务器 [9] - 无论是智算还是通算超节点,其核心目标都是让大量服务器像一台计算机一样工作,提供超大带宽、超低时延和统一内存编址能力 [11] 软件生态与产业共建 - 支撑超节点运行的不仅有硬件,还包括大量软件生态,如异构计算架构CANN、操作系统openEuler、数据库openGauss、AI框架MindSpore等 [14] - 华为坚持软件开源开放,截至2025年8月,鲲鹏注册开发者达380万,昇腾开发者近400万,并将CANN从底层运行时到开发语言、算子库等完整开源 [14] - openEuler是业界首个面向超节点的开源操作系统,华为通过开放核心技术与产业协同共创,以应对AI时代快速迭代的挑战 [14]
华为打造“最强超节点”,这项全球领先技术很关键
观察者网· 2026-02-10 11:10
文章核心观点 - 超节点是AI算力基础设施的重要革新,其核心价值在于通过重构计算架构(如全平等互联、统一内存编址)来显著提升算力利用率,而非简单的硬件堆砌 [1][4][7] - 华为凭借在光通信等领域的系统化创新能力,实现了大规模芯片(如384颗昇腾芯片)的高效互联,并计划将技术开放以构建产业生态 [8][9][11][12] - 算力需求(如中国每日token消耗量可能突破千万亿)正指数级增长,但传统集群存在严重效率问题(如万卡集群算力利用率仅约38%),这凸显了超节点技术的必要性 [3][7] 行业背景与需求 - AI算力需求远未被满足,大模型在生产系统和消费端的token消耗量正指数级增长,未来中国每日token消耗量可能突破千万亿 [3] - 传统通过大量建设服务器集群“堆卡”的方式存在巨大效率瓶颈,例如Meta论文指出万卡集群训练时算力利用率仅约38%,会造成62%的算力浪费,且模型训练每3小时中断一次 [3] - 集群网络通信已成为大模型训练和推理的最大挑战,以混合专家模型(MoE)为例,计算单元间通信不畅会导致NPU闲置,造成1+1<2的效率损失 [3] 超节点的技术定义与优势 - 超节点是对传统以CPU为中心的计算架构的重构,变为全平等互联架构,CPU、NPU、内存单元无需经过CPU即可直接互联,提高了通信效率 [4] - 真正的超节点须具备三个关键特点:足够大的带宽(让计算不等待通信)、足够低的时延、形成逻辑上的单一系统(关键在于内存统一编址) [6] - 统一内存编址技术是实现超节点的核心,它使内存能够池化,实现计算单元间的数据快速交换,类似于图书馆的书籍编址检索,与传统集群“寄快递”式的信息传递方式有本质区别 [6] - 超节点能显著提升计算效率,可将模型算力利用率从30%提升到45%,相当于提升50%,这在一定程度上可以弥补芯片工艺代差(如7纳米到3纳米每代性能提升不超过20%)带来的挑战 [7] 华为超节点的技术实现与创新 - 华为昇腾384超节点由12个计算柜和4个总线柜构成,其大规模互联(384颗芯片)的核心在于采用了光通信技术,而非业界常见的全铜线电信号架构 [8] - 电信号传输距离受限(通常只能在一个机柜内传送2到5米),而光通信技术使华为能够跳出单个机柜限制,实现384颗芯片互联,并计划未来支持8192颗芯片互联 [8] - 光模块技术挑战大,存在成本高、对环境敏感(灰尘、温度变化易导致闪断)等问题,华为凭借在光通信领域过去20年全球第一的技术积累和系统化创新能力(自研芯片、光器件、底层协议),实现了可靠的全光互联超节点 [8][9] - 华为构建了新型互联协议“灵衢UB(UnifiedBus)”,并将其灵衢2.0规范(基础协议达600页)完全开放,旨在让产业界伙伴能借此技术打造自己的超节点,共创繁荣生态 [11][12] 产品布局与生态建设 - 华为不仅在发展智算超节点(如昇腾系列),也在发展通算超节点,例如基于鲲鹏950处理器的TaiShan 950超节点,这是全球首个通用计算超节点,计划在2026年一季度上市 [9] - TaiShan 950超节点结合分布式GaussDB数据库,旨在取代各种应用场景的大型机、小型机以及Oracle的Exadata数据库服务器 [9] - 华为坚持软件开源开放以共建生态,其鲲鹏有380万注册开发者,昇腾有近400万开发者,并于2025年8月将异构计算架构CANN完全开源,openEuler是业界首个面向超节点的开源操作系统 [14] - 开放软件栈(包括CANN、openEuler、openGauss、MindSpore)旨在让开发者能基于此进行业务创新,华为认为AI时代需协同共创、开放共生 [14]
当开放成为共识,创新的边界正在被重新定义
搜狐财经· 2025-11-19 21:05
论坛核心主题 - 第六届华为创新与知识产权论坛以“开放驱动创新”为主题,探讨通过知识产权制度推动协作创新 [1] - 论坛核心议题为“创新—保护—共赢”,汇聚了世界知识产权组织、国际贸易许可者协会等全球机构嘉宾 [1] - 开放创新被强调为系统性的可行方法论,旨在通过共享平台与专利透明机制让创新更高效和普惠 [9][10] 华为知识产权成果与投入 - 截至2024年底,华为在全球累计获得超过15万件有效授权专利 [4] - 华为研发投入占年度收入的20%以上,过去十年累计投入超过1.2万亿元 [4] - 2024年华为公开的专利合作条约国际专利申请量达6600件,自2014年以来持续位居PCT体系全球用户榜首 [6] - 2024年华为的研发投入超过1700亿元,占全年收入的20.8% [7] 华为具体创新与开放举措 - 公布2024年度“十大发明”,包括Scale Up超大规模超节点算力平台、鸿蒙全栈架构创新技术等 [4] - 通过OpenHarmony、openEuler等开源项目形成庞大生态网络,截至2025年OpenHarmony已被超过5000家企业采用,覆盖数亿台设备 [7] - 升级“查思专利”平台,新增AI语义检索、自动摘要等功能,向业界开放以加速知识流通 [6] - 积极参与全球ICT标准制定,累计提交数以万计的标准提案,并与Sisvel、Avanci等国际许可平台合作提供FRAND专利使用途径 [8] 开放创新的商业价值与行业影响 - 2024年华为专利许可收入超过6.3亿美元,涵盖智能手机、汽车、物联网等领域 [8] - 知识产权被视为产业协作的桥头堡,其价值正从拥有转向共享,从竞争走向共生 [1][10] - 开放生态的竞争力被证实远超单一企业能力,在智能终端、汽车电子及5G/6G标准等领域促进跨界融合 [9] - 香港大学协理副校长邓希炜肯定华为遵循国际知识产权惯例,促进了知识产权的价值流动和良性商业生态构建 [12]
徐直军详解华为最强“算力核弹”
观察者网· 2025-09-18 21:24
芯片产品规划 - 昇腾950系列芯片支持FP8/MXFP8/MXFP4等低数值精度格式,算力达1P-2P FLOPS,自研HiF8格式精度接近FP16,包含面向Prefill场景的950PR和面向Decode场景的950DT两款合封芯片,均计划2026年上市 [3] - 昇腾960芯片性能较950翻倍,支持自研HiF4格式,推理精度优于业界FP4方案,计划2027年四季度推出 [7] - 昇腾970芯片FP4/FP8算力及互联带宽较960全面翻倍,内存访问带宽提升1.5倍,计划2028年四季度推出 [7] - 鲲鹏950处理器包含96核/192线程和192核/384线程两个版本,为首款支持机密计算的数据中心处理器,计划2025年一季度推出 [13] - 鲲鹏960处理器包含96核/192线程高性能版和不少于256核/512线程高密版,计划2028年一季度推出 [13] 超节点系统 - Atlas 950超节点基于8192颗昇腾950DT芯片构建,包含160个机柜(128计算柜+32互联柜),占地1000平方米,FP8算力达8E FLOPS,FP4算力达16E FLOPS,互联带宽16PB/s(超全球互联网峰值带宽10倍),计划2026年四季度上市 [11] - 对比英伟达NVL144系统,Atlas 950芯片规模为其56.8倍,总算力为其6.7倍,内存容量1152TB为其15倍,互联带宽16.3PB/s为其62倍 [11] - Atlas 960超节点基于15488颗昇腾960芯片构建,包含220个机柜(176计算柜+44互联柜),占地2200平方米,FP8算力30E FLOPS,FP4算力60E FLOPS,内存容量4460TB,互联带宽34PB/s,计划2027年四季度推出 [13] - TaiShan 950超节点为全球首款通用计算超节点,基于鲲鹏950处理器,最大支持32处理器/48TB内存,支持内存/SSD/DPU池化,计划2025年一季度上市 [13] 算力集群架构 - Atlas 950 SuperCluster集群由64个Atlas 950超节点互联组成,集成52万片昇腾950DT芯片,FP8总算力524E FLOPS,规模为xAI Colossus集群2.5倍,算力为其1.3倍 [18] - Atlas 960 SuperCluster集群计划2027年四季度推出,规模达百万卡级,FP8总算力2Z FLOPS,FP4总算力4Z FLOPS [19] - 自研"灵衢(UB)"互联协议支持万卡级超节点架构,具备总线级互联/平等协同/全量池化等六大特性,并开放灵衢2.0技术规范构建生态 [17] 软件生态战略 - CANN编译器与虚拟指令集接口开放,其余软件全开源,基于昇腾910B/C的开源计划2025年12月31日前完成 [22] - Mind系列应用使能套件及工具链全面开源,计划2025年12月31日前完成 [22] - openPangu基础大模型全面开源 [22] 技术突破方向 - 自研两种低成本HBM内存技术,分别适配Prefill推荐场景和Decode训练场景 [3] - 通过光通信/网络/供电技术集成384颗昇腾芯片构建超节点,计算与通信高速并行,已部署超300套 [10] - TaiShan 950超节点结合GaussDB多写架构可实现大型机/小型机替代,性能提升2.9倍 [15] - 推出TaiShan 950与Atlas 950混合超节点,支持PB级推荐系统嵌入表和超低时延推理 [15]
AI落地的关键堵点,华为用“黑科技”打通了
观察者网· 2025-08-15 12:06
AI推理性能瓶颈 - 传统Scaling Law遇到明显瓶颈 企业开始关注模型推理性能体验以推动商业落地和变现 [1] - AI推理算力需求已超过训练 GPT-5开放首周API调用量超20亿次/分钟 70%请求为复杂推理任务 火山引擎日均token调用量达16.4万亿 70%以上来自线上推理 [4] - 长文本处理 多轮对话以及复杂业务流程的推理需求日益增长 对推理性能要求愈发严苛 [4] 中国AI推理困境 - 基础设施投资仅为美国十分之一 面临算力卡阉割 HBM涨价禁运等困境 [1][6] - 国外主流大模型输出速度达200 tokens/s(时延5ms) 国内普遍小于60 tokens/s(时延50-100ms) 最大差距达10倍 [7] - 海外模型支持100万级Token上下文窗口 国内头部模型仅50万 长文本分析中遗漏关键信息概率超50% [7] 键值缓存技术挑战 - KV Cache需占用GPU显存存储历史Key/Value向量 长文本生成会挤爆HBM和DRAM [6] - Agentic AI时代到来导致KV Cache容量增长超出HBM承载能力 频繁内存溢出造成推理"失忆"和卡顿 [6] - 中国企业无法无限制堆卡 面临出口管制无法获得最先进算力卡和HBM [6] 华为UCM技术突破 - 通过分级缓存管理在HBM DRAM SSD等存储介质中按数据热度缓存 扩大推理上下文窗口10倍 [10][15] - 采用注意力稀疏技术识别KV Cache数据重要程度 分层分级缓存并流动 降低向量数量提升吞吐量 [17] - 将历史已处理结果缓存至外置共享存储 首token延迟降低90% 节省token by token时间 [13] 性能提升与成本优化 - 长序列场景下TPS提升2-22倍 降低每Token推理成本 为企业减负增效 [17] - 维持算力投入不变 仅增加小部分外置存储投资 改善推理效率并摊薄成本 [18] - 推动形成"用户体验提升-用户增长-企业加大投资-技术迭代"的正循环 [18] 金融场景应用验证 - 与中国银联合作解决长序列输入 并发时延和算力耗费三大核心难题 [19] - 在"客户之声"业务场景推理速度提升125倍 10秒精准识别客户高频问题 [21] - "营销策划"场景生成时间从数分钟缩短至10秒内 单台服务器支持超5人同时在线协作 [21] 技术开源与生态建设 - 华为宣布9月开源UCM 包含推理引擎插件 功能库和高性能存取适配器三大组件 [26] - 开放统一接口适配多类型推理引擎框架 算力及存储系统 推动生态繁荣 [28] - 差异化在于将专业存储纳入 通过软硬协同和算法库贡献丰富可靠的加速算法 [26] 行业意义与发展前景 - 降低对HBM依赖 将HBM优势发挥在更合适地方 填补中国AI推理生态关键环节 [18][26] - 解决Agentic AI时代显存不足和推理Token成本问题 可应用于千行百业 [23] - 推动中国AI产业进入良性商业正循环 为长远发展注入更强动力 [28]
华为版CUDA,全面开源了
猿大侠· 2025-08-07 12:11
华为昇腾AI生态开源战略 - 公司宣布全面开源昇腾AI GPU的CANN软件工具包及Mind系列应用使能套件,支持开发者深度自定义开发[1][3] - CANN作为华为版CUDA,提供多层编程接口和算子加速库,构建针对昇腾硬件的AI应用生态[4][5] - 当前CANN 8.0提供社区版(新功能体验)和商业版(企业稳定版),均升级至8.2.RC1并新增适配12款操作系统[7] 挑战英伟达CUDA封闭生态 - 华为通过开源CANN打破CUDA仅支持英伟达硬件的垄断,避免开发者迁移时需重写代码的困境[7] - 配套自研框架MindSpore(类似PyTorch)形成原生AI软硬件方案,已支持PyTorch/TensorFlow等8种主流框架[8][15] - 联合行业发起《CANN开源开放生态共建倡议》,加速昇腾生态建设[11][12] GPU架构师创业公司Oxmiq Labs - 前AMD/英特尔高管Raja Koduri创立Oxmiq,专注GPU硬件IP授权及兼容第三方硬件的软件堆栈[14][17][18] - 硬件采用RISC-V架构GPU IP核OxCore,集成标量/矢量/张量引擎,支持芯片集系统OxQuilt灵活构建SoC[22][25] - 软件核心OXPython可无修改运行CUDA应用,初期将部署在Tenstorrent AI加速器而非自有硬件[29][30][31] 行业竞争格局变化 - 华为与Oxmiq分别从开源生态和跨平台兼容性切入,挑战英伟达CUDA的技术壁垒[7][27] - 两者战略差异:华为绑定昇腾硬件变现,Oxmiq软件独立于硬件授权[3][31] - 行业涌现多路径替代方案,最终推动开发者工具链多元化[9][32]
华为版CUDA,全面开源了
36氪· 2025-08-06 16:29
华为昇腾AI生态开源战略 - 公司宣布全面开源昇腾硬件使能软件CANN及Mind系列应用使能套件,支持开发者深度挖潜和自定义开发,加速AI创新 [3] - CANN作为华为版CUDA,提供多层编程接口,已升级至8.0版本,包含社区版(新功能体验)和商业版(企业稳定版),新增适配12款操作系统 [6] - 配套自研深度学习框架MindSpore(类似PyTorch),形成原生AI软硬件方案,并支持PyTorch、TensorFlow等8种主流框架与第三方库 [6][9] - 联合行业发起《CANN开源开放生态共建倡议》,意图打破英伟达CUDA封闭生态的垄断 [11] 挑战英伟达CUDA的新兴竞争者 - 传奇GPU架构师Raja Koduri创立Oxmiq Labs,定位为硅谷25年来首家GPU初创公司,专注GPU硬件IP与软件堆栈授权 [12][14] - 公司硬件方案基于RISC-V指令集,推出模块化GPU IP核OxCore及芯片集构建器OxQuilt,支持灵活配置AI训练/推理SoC [18][20] - 软件核心OXPython可无修改运行Python版CUDA应用,通过统一运行时OXCapsule实现跨硬件平台兼容,初期适配Tenstorrent加速器 [23] - 战略强调软件堆栈与硬件解耦,直接对标CUDA生态,降低开发者迁移门槛 [16][21] 行业竞争格局变化 - 华为与Oxmiq分别从开源生态和兼容层技术切入,挑战英伟达CUDA的封闭体系 [6][23] - 昇腾CANN开源可能吸引受限于CUDA绑定的开发者,而Oxmiq的跨硬件兼容方案瞄准多模态AI/图形工作负载 [6][16] - 两家公司均强调降低开发者迁移成本,通过工具链开放或代码兼容性争夺生态话语权 [3][23]
对标英伟达CUDA,华为昇腾关键套件全面开源
选股宝· 2025-08-06 07:22
华为昇腾计算产业战略与开源举措 - 华为宣布昇腾硬件使能CANN全面开源开放,Mind系列应用使能套件及工具链全面开源,旨在支持深度挖潜和自定义开发,加速开发者创新 [1] - 国盛证券指出,昇腾CANN对标英伟达CUDA,提供高性能算子库和多种开发方式,MindSpore开源框架助力高效开发 [1] - 应用使能的MindX通过"2+1+X"模式降低行业开发门槛,推动昇腾计算成为全场景AI基础设施 [1] 行业生态构建与自主闭环 - 财通证券认为生态构建是必然趋势,需加速完善类似CANN的底层架构,提升对CUDA的兼容效率并降低性能损耗 [1] - 同时需推动MindSpore等国产框架与芯片深度协同,形成"芯片-框架-应用"的自主闭环 [1] - 中银证券认为昇腾强大的订单兑现能力将带动产业链持续扩容 [1] 昇腾产品性能与产业链影响 - 中银证券指出昇腾384具备系统层级的性能优势,并展现出对国产产业链更强的牵引能力 [1] - 若更多企业向昇腾平台转移,国内供应链有望从芯片到整机、从整机到材料实现全面联动,进入新的增长周期 [1] 相关公司业务进展 - 先进数通表示其昇腾A800I A2大模型一体机已经正式开售 [2] - 拓维信息是华为"鲲鹏/昇腾AI+行业大模型+鸿蒙"全方位战略合作伙伴 [3]
对标英伟达CUDA,华为宣布开源CANN
新浪财经· 2025-08-05 22:29
华为昇腾计算战略 - 公司宣布昇腾硬件使能CANN全面开源开放,Mind系列应用使能套件及工具链全面开源,支持开发者深度挖潜和自定义开发[1] - 公司AI战略核心是算力,坚持昇腾硬件变现[1] - CANN作为神经网络异构计算架构,连接上层AI训练框架和底层昇腾芯片,简化开发者调用底层算力的流程[1] CANN技术定位与竞品对比 - CANN作用类似英伟达CUDA、AMD ROCm、摩尔线程MUSA等,但CUDA凭借成熟生态构成英伟达核心护城河[1] - CUDA生态系统存在巨大迁移成本,开发者需重写代码并失去社区支持,而昇腾+CANN+MindSpore构成对标英伟达PyTorch+CUDA的原生方案[3] - CANN 8.0版本新增200+基础算子、80+融合算子、100+API,典型算子开发周期从2人月缩短至1.5人周[4] 生态兼容性与开放策略 - CANN已支持PyTorch、MindSpore、TensorFlow等主流框架及第三方库,实现分层深度开放以降低迁移门槛[5] - 公司向百度、科大讯飞、腾讯派遣工程团队,帮助优化基于CANN的代码,效仿英伟达早期推广策略[7] - 公司发起《CANN开源开放生态共建倡议》,联合AI领军企业、高校等共同构建昇腾生态[7] 华为开源布局与市场表现 - 公司2020年开源MindSpore框架,2024年以30.26%新增份额成为中国AI框架市场第一[8] - 通过开放鸿蒙、欧拉、高斯等基础软件,打破"封闭式发展"的行业质疑[8] 生态发展挑战 - CANN生态发展仅6-7年,易用性和丰富度仍落后发展18年的CUDA,需长期投入[7] - 行业认为构建竞争力软件生态需数年时间,开发者习惯培养是关键[7]
H20解禁,中美AI闭环竞赛开启
虎嗅· 2025-07-16 09:51
英伟达H20芯片解禁事件分析 - H20芯片是AI训练千亿大模型的核心动力 被比喻为AI时代的"发动机" [3] - 2024年H20为英伟达带来120-150亿美元收入 占中国区营收85% [7] - 禁售导致英伟达Q1损失25亿美元 预计两季度共亏损135亿美元 [9] 中美科技博弈新阶段 - 美国从全面封锁转向有限放水 形成新的平衡策略 [5][15] - 禁令倒逼中国加速国产替代 华为昇腾910B性能接近H20 [11][33] - 中国AI市场未停滞 反而推动国产芯片生态发展 [14] 中国市场变化 - 字节跳动和腾讯2024年采购23万枚Hopper系列芯片 [8] - 腾讯向字节跳动购买价值20亿元GPU算力资源 [28] - H20服务器价格从100万元涨至140万元 [30] 国产替代进展 - 华为昇腾 寒武纪等国产芯片性能显著提升 [11] - 国家发改委建议优先使用国产芯片 [34] - 华为MindSpore 百度PaddlePaddle等国产框架逐步完善 [35] 英伟达应对策略 - 强调高性能计算和生态兼容性优势 [40] - 尝试与小米等中国头部企业深化合作 [43] - 讨论基于CUDA的本地化AI训练方案 [46] 行业未来趋势 - 可能出现中美两个平行的AI技术世界 [52] - 中国正在构建芯片-框架-大模型-应用的闭环生态 [59] - 华为昇腾+MindSpore+Qwen形成自主技术体系 [60]