CloudMatrix 384超节点

搜索文档
计算机8月投资策略:持续看好AI应用及金融科技,关注华为链投资机会
招商证券· 2025-08-06 16:04
行业投资评级 - 持续看好AI应用及金融科技,关注华为链投资机会 [1] - 计算机板块8月投资策略聚焦AI应用、华为链及金融科技三大方向 [1] 核心观点 - 7月投资热点聚焦海外算力、AI应用、雅江工程、军工等板块,其中海外算力方向涨幅居前的以大市值白马股居多 [5] - 7月申万计算机指数涨幅为3.86%,金融科技、AI应用表现突出,推荐公司中金融科技耀才证券金融、大智慧、OSL集团,AI应用鼎捷数智、泛微、迈富时等7月最大收盘涨幅均在30%+ [5] - 8月看好AI应用、华为链及金融科技三大方向:AI应用受益于政策支持及大模型迭代,华为链关注全联接大会催化,金融科技受益于牛市预期及AI+金融落地 [5] 7月投资热点回顾 - 海外算力:英伟达GB200步入量产期,H20对华许可证放开,ASIC市场规模快速增长,带动产业链高景气 [25][26][27] - AI应用:中央及地方政策支持AI发展,ChatGPT智能体、Kimi K2、腾讯混元等大模型持续创新突破 [35][36][38][39][43] - 金融科技:7月A股新开户数196万户,同比增长71%,市场交投活跃,全A日均成交额16336亿元,环比+22.3% [79][83] 8月投资方向梳理 - AI应用:OpenAI有望发布GPT-5,海外AI厂商财报验证商业化落地,重点关注美图公司、金山办公、金蝶国际等 [52][53][58] - 华为链:全联接大会将于9月举办,鸿蒙生态加速适配,终端数量突破1000万台,昇腾CloudMatrix 384超节点亮相 [59][60][65][71][75] - 金融科技:牛市预期下市场风险偏好走高,AI+金融场景落地,重点关注恒生电子、东方财富、同花顺等 [86] 数据表现 - 计算机板块股票家数284只,总市值3808.2十亿元,流通市值3356.6十亿元 [2] - 申万计算机指数1个月绝对表现10.3%,6个月22.6%,12个月78.6% [4] - 7月上证指数上涨3.34%,沪深300上涨3%,WIND全A指数上涨4.6%,科技龙头指数涨10.4% [13][14]
华为云黄瑾:加速行业智能跃迁 共建“美好无锡”
环球网资讯· 2025-07-14 11:55
峰会概况 - 华为云城市峰会2025在无锡举办 主题为"引领智能升级 共建美好无锡" 聚焦AI应用 大模型及具身智能技术等核心话题 [1] - 无锡市联合华为云打造的人工智能创新中心正式启动 该中心集技术研发 产业赋能 生态培育为一体 推动人工智能科技创新与产业深度融合 [1] 华为云技术布局 - 华为云推出CloudMatrix 384超节点架构 基于"一切可池化 一切皆对等 一切可组合"的新型高速互联总线 实现从服务器级到矩阵级的资源供给模式转变 [3] - CloudMatrix 384具备MoE亲和 以网强算 以存强算 长稳可靠 朝推夜训 即开即用六大优势 在算力 互联带宽 内存带宽等方面实现全面领先 [3] - 华为云通过盘古大模型聚焦"基础模型+工具链+行业场景"三位一体 为政务 金融 制造 医疗 能源等30余个行业提供"开箱即用"的大模型能力 [4] 行业赋能战略 - 中国制造业总体规模连续14年全球第一 220+个工业类别规模全球第一 每年近1200万大学毕业生的人才储备 可发挥"应用场景优势+软件人才优势"加速工业领域智能化升级 [4] - 华为云通过沉淀工业Know-How 将内部最佳实践和外部生态经验汇聚于云平台 赋能伙伴和使能客户 支持客户智能升级 [5] - 无锡人工智能创新中心将联合生态伙伴 助力集成电路 高端装备 新能源 生物医药 新材料 汽配 信息技术 航空航天等行业客户加速智能升级 [5]
华为芯片,让英伟达黄教主坐不住了
21世纪经济报道· 2025-07-07 16:56
核心观点 - 华为昇腾CloudMatrix 384超节点在部分性能上超越英伟达GB200机柜,整体计算能力达后者的1.6倍[1][13] - 昇腾通过集群化设计弥补单芯片性能差距,实现从"备胎"到"主力"的转变,成功训练出千亿参数大模型[3][6][32] - 昇腾在算力利用率(MFU)上达到全球一流水平,稠密模型MFU超50%,MoE模型达41%-45%[9][10] - 昇腾384超节点采用光互联等系统性工程突破,实现384芯片高效协同,技术路径与英伟达差异化[16][21][29] 技术性能对比 - 单芯片性能为英伟达Blackwell的三分之一,但384超节点通过5倍芯片数量实现系统算力反超[13] - 推理性能对标英伟达H100,在DeepSeek-R1模型测试中算力利用率获全场最佳[11] - 英伟达GB200机柜仅集成72块GPU(下一代144块),华为突破384芯片互联技术[19][20] 技术路径创新 - 采用全对等互联架构与光缆连接,传输效率优于英伟达NVLink铜缆方案[27][29] - 结合鲲鹏CPU与昇腾NPU协同优化,实现"数学补物理"的系统级创新[24][32] - 自研CANN软件栈替代CUDA生态,支持分钟级故障恢复等工程优化[32] 行业竞争格局 - 国内AI芯片形成三大派系:科技巨头(华为/百度/阿里)、纯芯片厂商(寒武纪/燧原等)、细分领域企业(地平线等)[36] - 英伟达仍保持3nm工艺领先优势,CUDA生态历史积淀深厚[33][34] - 美国制裁背景下,昇腾在中国市场加速替代英伟达H20受限产品[36][37] 发展前景 - 华为通过"面积换性能"策略开辟中国特色技术曲线,实现弯道超车[38][39] - 昇腾已验证国产芯片训练千亿参数模型能力,标志国产算力进入实用阶段[6][40]
华为芯片,究竟有多牛(下)
21世纪经济报道· 2025-07-07 11:18
华为昇腾技术架构 - 昇腾最强战力为"CloudMatrix 384超节点",包含384张昇腾910芯片和192颗鲲鹏CPU,通过16个机柜和光缆/光模块联接形成高效协同系统 [2] - 相比英伟达GB200机柜仅72块GPU(下一代144块),华为通过复杂系统工程实现384芯片互联,突破稳定性难题 [3][4] - 采用"全对等互联总线"技术,取消数据中转环节,所有芯片地位平等,显著提升传输效率 [8] 核心技术突破 - 选择光缆替代铜缆互联,带宽更大(速度提升8倍)、延迟更低(纳秒级),但成本更高 [10] - 结合华为光通信技术优势,在芯片内建立高速互联通道,支撑超节点架构 [11] - 通过数学算法调度优化(算力利用率达50%)、软硬件协同设计(CANN替代CUDA)、工程散热等系统性创新弥补单芯片性能差距 [11][12] 竞争策略与行业格局 - 采用"群计算补单芯片"路径:通过超节点架构、多卡堆叠高带宽、分钟级故障恢复等组合方案实现实用级性能 [12] - 当前差距:英伟达3nm工艺领先、CUDA生态更成熟、全球开发者社群更庞大 [14][15][16] - 中国市场形成三大AI芯片派系:科技巨头系(华为/百度/阿里)、纯芯片厂商(寒武纪/GPU四小龙)、细分领域创新企业(地平线等) [16] 行业发展意义 - 昇腾路线代表中国特色技术曲线:在单芯片受限情况下,通过系统级优化(面积换性能、堆叠换容量)实现弯道超车 [16] - 美国技术封锁反而加速国内半导体产业链自主创新,昇腾成为国产算力逆袭的关键突破口 [16][17]
华为云肖霏: 找准AI技术锚点,做智能时代更懂政企的云
搜狐财经· 2025-06-22 05:35
华为云Stack战略定位 - 公司以"做智能时代更懂政企的云"为核心定位,聚焦政企客户在AI时代的数智化转型需求[1] - 混合云产品战略覆盖云平台、数智融合、AI和应用现代化四大竞争力维度[1] - 下半年将率先适配CloudMatrix 384超节点,为政企提供本地化AI算力支持[3] 市场表现与产品能力 - 当前提供120多个云服务和50多个场景化解决方案[3] - 在亚太与中国混合云市场保持领导地位,政务、金融、制造领域份额持续第一[3] - 产品矩阵覆盖"建云、上云、用云、管云"全业务流程[4] 行业应用案例 金融领域 - 为国有大行搭建算力平台,实现106个DeepSeek R1实例2天快速部署,效率较传统方式提升70%[4] 制造业 - 徐工集团案例显示:大数据平台实现车联网设备360画像,数据指标可视化提升分析效率[4] 钢铁行业 - 湘钢通过ModelArts平台整合十余个架构,发布首个钢铁大模型并在30+场景落地[5] 能源行业 - 中海油采用CodeArts后研发工时节省30%,系统部署时间从1周压缩至1天[5] 用户分层运营策略 - 将政企用户细分为数据中心工程师、数据工程师、AI算法工程师、应用开发工程师四类角色[3] - 针对不同角色提供定制化软件与AI能力支持[3] 生态赋能体系 - 通过培训体系、开发环境、技术沙龙、经验共享四维支撑政企智能化转型[5] - 强调"技术为根,人才为本"的发展理念[5]
让算力航母稳健远航,华为首次披露昇腾算力基础设施的压舱石
21世纪经济报道· 2025-06-09 20:08
AI算力集群技术演进 - AI算力集群通过整合上万台计算机形成"算力航空母舰",以应对万亿参数大模型的计算需求,单机算力已无法满足复杂AI任务[1] - 集群需解决三大核心挑战:设备协同工作、故障时高效运行、训练中断快速修复,华为团队通过工程创新实现技术突破[1] 超节点高可用技术 - 采用"系统层-业务层-运维层"三级容错方案,将故障转为亚健康问题,通过超时代答欺骗OS和网络路由切换防止系统级故障[1] - 在CloudMatrix 384超节点中实现租户无感知的网络闪断重试,运维层通过亚健康感知技术主动消除故障影响[1] 集群线性度优化 - 提出TACO、NSF、NB、AICT四项关键技术,实现算力规模与性能的线性增长,PanGu Ultra 135B模型在4K卡集群实现96%线性度[1] - PanGu Ultra MoE 718B稀疏模型在8K卡集群线性度达95.05%,4K卡CloudMatrix集群线性度达96.48%[1] 万卡训练快速恢复 - 进程级重调度恢复技术将训练恢复时间缩短至3分钟内,在线恢复技术针对硬件UCE故障实现30秒内恢复[1] - 算子级在线恢复通过HCCL算子重试实现网络故障秒级恢复,训练任务不中断[1] MoE模型推理容错 - 三级容错方案实现实例间切换/重启/无损恢复,实例恢复时间从20分钟降至5分钟[1] - TOKEN级重试技术在CloudMatrix 384场景下实现30-60秒实例恢复,减卡弹性恢复技术实现秒级无感知恢复[1] 故障感知与诊断 - 构建全栈可观测能力,包含集群运行视图、网络链路监控等模块,实现硬件故障实时监测[1] - 建立全栈故障模式库,涵盖跨域诊断、计算节点诊断、网络诊断等技术,提升故障定位效率[1] 数字化仿真建模 - Sim2Train平台通过AdaptPack编排优化长序列PP空泡,吞吐提升4.5%-8.24%,AdaptS/R技术缩短单步时长3.25%[1][2] - Sim2Infer推理仿真平台实现硬件指令自动化映射,平均误差仅6.6%,Sim2Availability框架可模拟复杂系统故障场景[1][2] 框架迁移与生态兼容 - MindSpore构建MSAdapter工具覆盖90%以上PyTorch接口,通过多级流水线技术提升动态图执行效率[1] - 推理阶段兼容HuggingFace权重配置,vLLM-MindSpore插件支持大模型服务化,实现盘古72B模型快速部署[1] 未来技术演进方向 - 算法-算力-工程协同进化将形成"应用需求→硬件创新→工程反哺"闭环,光电混合架构释放性能潜力[1] - 智能化工程手段如AI运维将弥合系统复杂度,推动高效、弹性、自愈的下一代算力基础设施发展[1]
硅基昇腾,中国突围!
是说芯语· 2025-06-08 16:35
核心观点 - 中国AI大模型DeepSeek R1问世后引发全球关注,华为云联合硅基流动推出国产化解决方案DeepSeek R1/V3,实现从模型到算力的全面突破 [5][8][9] - 华为云推出CloudMatrix 384超节点技术,昇腾卡互联数量达384张,远超英伟达NVL72的72卡,成为中国AI算力巅峰 [23][24][25] - 华为云通过光模块技术突破、液冷散热系统优化等创新,解决超节点部署中的高难度挑战,实现性能倍增和长稳运行 [29][45][47][56][71] 技术突破 - **超节点技术**:华为云CloudMatrix 384超节点采用光模块互联,带宽和时延优于英伟达铜连接方案,但初期面临光链路闪断问题,通过故障定位系统最终解决 [21][22][29][53][55][56] - **性能优化**:CloudMatrix 384部署初期吞吐量仅320 Tokens/秒,经多团队协同优化后提升至1920 Tokens/秒,性能较昇腾910B单卡提升10倍 [60][61][66][69][71] - **MoE亲和性**:超节点集成384张昇腾卡,优化DeepSeek的混合专家模型(MoE)性能,千亿级MoE效率提升3倍 [73][74][71] 行业影响 - **国产算力突破**:华为云与硅基流动合作实现DeepSeek国产化部署,打破英伟达算力垄断,构建国产算力防线 [9][76][77][78] - **全球竞争力**:华为云超节点在贵州、内蒙古、安徽三大枢纽全面布局,成为国内唯一商用的大规模超节点,部分指标超越英伟达H100 [75][76][71] - **数据中心革新**:华为云通过AI for DC预警系统和液冷技术解决50千瓦/机柜供电、散热等难题,推动数据中心技术升级 [34][35][45][47] 市场反应 - 硅基流动网站访问量在DeepSeek部署后暴增40倍,冲至中国AI网站第6、全球增长榜第2 [14] - 华为云紧急调拨2000多张昇腾910B卡应对流量洪峰,后续通过动态算力调配扛住持续爆发 [15][17] - 微软云在新加坡数据中心事故中服务中断,华为云凭借应急能力稳定运行,形成鲜明对比 [39][40][41][42]
RL后训练步入超节点时代!华为黑科技榨干算力,一张卡干俩活
21世纪经济报道· 2025-06-05 19:03
RL后训练的重要性 - RL后训练已成为突破大模型性能天花板的核心路径,OpenAI o1、DeepSeek-R1等模型均依赖此技术提升推理效能 [1] - 相较于预训练的广撒网式知识获取,RL后训练通过动态交互直接塑造模型在复杂任务中的推理能力 [1] - 当前RL后训练消耗全流程20%算力,未来将飙升至50%,显著影响模型性能与成本 [1] 传统RL后训练的挑战 - 训练与推理需交替执行,导致算力闲置,资源利用率低下 [1][3] - 在千卡/万卡集群中,同步等待模式放大为算力黑洞,推高训练成本 [3] - 大规模集群中,MoE模型的多维并行策略组合使任务调度复杂度指数级增长,扩展效率下降 [4] 华为RL Fusion技术突破 - 实现训推共卡,单卡同时执行训练与推理,资源利用率翻倍,吞吐提升78.5% [1][4][22] - 支持TP/DP/PP等多维并行策略动态切换,小规模场景可进一步整合Reference及Reward模型资源 [4][5] - 针对MoE模型提出训推内存0冗余切换技术,通过分桶管理参数消除EP变化导致的冗余内存 [5][6] - 优化权重通信与内存加卸载,训推切换速度达秒级 [6][8] StaleSync准异步并行技术 - 容忍梯度陈旧性,允许不同RL阶段任务在阈值内并行执行,集群水平扩展效率超90% [8][10] - 引入准异步调度机制,长尾样本达到阈值即触发下一阶段计算,训练吞吐提升50% [14] - 分布式数据队列DistQueue采用分层数据传输与零冗余通信技术,负载降低至1/128,通信量减少80%以上 [16][19][20] 实测性能提升 - RL Fusion与StaleSync协同优化,单超节点吞吐提升78.5%,整体性能提升1.5倍 [22] - 集群规模从1节点扩展至4节点时,StaleSync吞吐从35k tokens/s增至127k tokens/s,线性度达91%,远超全同步方案的85% [24] - 昇腾超节点实现单节点速度提升2.5倍,集群扩展效率突破90%,为百亿/千亿级模型训练提供高效支持 [26]
RL后训练步入超节点时代!华为黑科技榨干算力,一张卡干俩活
雷峰网· 2025-06-05 17:17
大模型RL后训练技术突破 - 强化学习后训练(RL后训练)已成为突破大模型性能天花板的核心路径,当前消耗训练全流程20%算力,未来将升至50% [2][3][10] - RL后训练通过模型与外部环境动态交互,显著提升复杂任务推理效能,OpenAI o1、DeepSeek-R1等模型均依赖该技术 [3][8][9] - 传统RL后训练存在算力浪费问题,训练与推理需交替执行导致资源闲置,在千卡/万卡集群中形成"算力黑洞" [4][13] 华为RL Fusion训推共卡技术 - 实现单卡同时执行训练和推理任务,支持TP/DP/PP等多维并行策略动态切换,资源利用率与吞吐量翻倍 [19][20] - 针对MoE模型提出训推内存0冗余切换技术,通过分桶管理参数消除EP变化造成的冗余内存 [21][22] - 优化权重通信和内存加卸载,训推切换过程缩短至秒级,单超节点吞吐提升78.5% [25][26][52] StaleSync准异步并行技术 - 突破全同步限制,允许梯度在"陈旧度阈值"内并行执行,CloudMatrix 384超节点水平扩展效率超90% [29][30][32] - 引入准异步调度机制,当生成样本达阈值时立即触发下游计算,整体训练吞吐提升50% [37][38] - 配套开发DistQueue分布式数据队列,采用分层数据传输和零冗余通信技术,降低80%以上通信量 [41][43][48] 昇腾超节点实测性能 - RL Fusion+StaleSync协同实现35k token/s吞吐效率,较基线提升150%,4超节点扩展至127k token/s时线性度达91% [53][54][55] - 对比全同步方案,4超节点下StaleSync吞吐(127k)比同步方案(85k)提升49%,扩展线性度优势明显 [55] - 技术组合形成"资源复用+任务并行"双重保障,单节点速度提升2.5倍,支持百亿/千亿级模型高效训练 [57][58]
每2秒吃透一道高数大题!华为终于揭秘准万亿MoE昇腾训练系统全流程
华尔街见闻· 2025-05-30 17:38
华为Pangu Ultra MoE大模型技术突破 - 华为通过"昇腾+Pan gu Ultra MoE"组合实现国产算力与国产模型全流程自主可控的训练闭环,集群训练系统性能达到行业领先水平[3] - 预训练阶段昇腾Atlas 800T A2万卡集群MFU提升至41%,后训练阶段单CloudMatrix 384超节点吞吐达35K Tokens/s[4] - 首次披露在昇腾CloudMatrix 384超节点上高效打通大稀疏比MoE强化学习后训练框架的关键技术[4] 技术挑战与解决方案 - MoE预训练和强化学习后训练存在六大挑战:并行策略配置困难、All-to-All通信瓶颈、系统负载分布不均、算子调度开销过大、训练流程管理复杂、大规模扩展受限[7][8][10][11][12][13] - 提升训练集群利用率三招:建模仿真驱动的智能并行优化、Adaptive Pipe前反向通算掩盖、EDP Balance全局动态负载均衡[15][16][17][20][22][23] - 释放昇腾单节点算力三招:昇腾亲和的训练算子加速、Host-Device协同的算子下发优化、Selective R/S精准的内存手术方案[26][28][29][30] 强化学习后训练创新 - 首次披露RL Fusion训推共卡技术,支持训练推理共卡、全共卡等多种灵活部署模式,实现RL后训练集群利用率翻倍[33][34] - 设计准异步机制StaleSync和分布式数据队列DistQueue,系统整体训练吞吐提升50%[36] - 在Pangu Ultra MoE昇腾CloudMatrix 384超节点集群后训练中实现每超节点35K Tokens/s高吞吐能力,支持高效扩展超过4K卡集群[39] 模型性能与架构 - Pangu Ultra MoE模型拥有7180亿参数,包含61层Transformer,前3层为稠密层,后58层为MoE层[38] - 模型隐层维度达7680,配备256个路由专家和1个共享专家,专家隐层维度为2048[38] - 在序列长度为8K、万卡训练集群条件下,模型算力利用率(MFU)达到41%,预计可支撑训练集群MFU>50%[38]