Workflow
昇腾AI算力
icon
搜索文档
华为HDC开发者大会2025亮点梳理-20250622
国投证券· 2025-06-22 14:01
报告行业投资评级 - 领先大市 - A,维持评级 [8] 报告的核心观点 - 6月20 - 22日华为开发者大会(HDC 2025)召开,展示新产品新技术亮点,本周计算机行业指数下跌,板块震荡调整,AI应用回调多,个股在稳定币等金融科技方向表现较好 [14][20][24] 根据相关目录分别进行总结 本周行业观点 - 华为HDC 2025大会有1.2万名全球开发者参与,展示5个新产品新技术亮点 [1][14] - HarmonyOS 6操作系统已搭载超40款华为终端产品,9000多个应用参与70多个系统级创新体验打造,3万多鸿蒙应用和元服务加速开发更新,全场景互联架构实现毫秒级低时延,HarmonyOS6开发者Beta启动,鸿蒙注册开发者超800万,工具下载超110万次,AGC服务月均调用1.7亿次,开发者提交版本超27万次,完成超216万用户心愿单,TOP5000应用覆盖99.9%使用时长 [2][15] - 大会发布HMAF鸿蒙智能体框架,打造新AI生态体系,推动人机交互演进,小艺智能体开放平台有50多个鸿蒙系统插件,还发布鸿蒙应用AI编程工具DevEco CodeGenie,累计生成代码813万行,280万行被采纳 [3][16] - 会上发布盘古大模型5.5,含多种大模型,华为云面向5个领域发布盘古行业思考大模型,从盘古5.0到5.5核心能力全面升级,架构层面有升级并提出消解幻觉创新方案 [4][17] - 华为云发布CloudRobo具身智能平台,赋能联网设备成具身智能机器人,展示双臂机械臂应用,毫米精度成功率超90%,还发布CodeArts Doer开发工具 [5][18] - 大会发布基于CloudMatrix384超节点的新一代昇腾AI云服务,整合芯片提供服务,单卡推理吞吐量跃升至2300 Tokens/s,提升近4倍,支持混合多专家MoE大模型推理,一个超节点支持384个专家并行推理 [6][19] 市场行情回顾 本周板块指数涨跌幅 - 本周上证综指跌0.51%,深证成指跌1.16%,创业板指跌1.66%,计算机行业指数跌1.87%,跑输上证综指1.036pct,跑输深证成指0.71pct,跑输创业板指0.21pct,计算机板块震荡调整,AI应用回调多 [20] - 本周计算机行业指数在中信30个行业指数中排第17,在TMT四大行业中排第4 [23] 本周计算机个股表现 - 本周计算机板块在稳定币等金融科技方向表现较好,后续关注AI、机器人、自主可控等中长期产业方向 [24] - 周涨幅前十股票有楚天龙(36.59%)、四方精创(29.21%)等;周跌幅前十股票有新北洋( - 12.65%)、*ST迪威( - 12.63%)等;周换手率前十股票有雄帝科技(205.60%)、御银股份(190.02%)等 [27] 行业重要新闻 - 华为在HDC 2025推出盘古大模型5.5,推理效率提升8倍,部分能力超越顶尖模型,同步发布昇腾AI云服务,单卡推理吞吐量提升4倍,支持16万卡级联训练,服务1300余家客户 [28] - Meta以143亿美元收购Scale AI 49%股份,挖角顶尖人才组建AGI攻坚团队,弥补Llama 4数据短板 [28] - MiniMax开源混合架构模型M1,支持100万上下文输入,推理成本降低,能耗降低70%,在部分场景表现超越DeepSeek - R1 [28] - 谷歌发布Gemini 2.5 Flash - Lite,为最轻量化、具成本效益模型,在编码等场景实现速度与经济性双突破,已获企业部署 [28] - 阿里通义千问开源Qwen3全系列32款MLX量化模型,适配苹果MLX,各模型有4种精度量化版本 [28]
昇腾AI算力集群有多稳?万卡可用度98%,秒级恢复故障不用愁
21世纪经济报道· 2025-06-10 20:55
想象一下,你正在用手机导航规划长途路线,背后可能有几十个 AI 模型同时在分析路况、预测 拥堵;医院用 AI 辅助诊断癌症时,系统需要瞬间处理成百上千张 CT 影像。这些看似简单的智 能应用,背后都依赖着像 "超级大脑" 一样的 AI 算力集群在 24 小时不停运转。 如果把 AI 算力集群比作一个大型工厂的生产线,高可用性就相当于让这条生产线具备 "永不 罢工" 的能力,给 AI 算力集群上了一份 "保险",让这个支撑智能时代的 "数字发动机" 既能 承 受 日 常 的 " 小 磕 小 碰 " , 又 能 在 遇 到 突 发 故 障 时 保 持 稳 定 运 行 。 只 有 确 保 算 力 资 源 随 时 可 用、持续输出,才能让 AI 真正成为驱动业务创新的可靠引擎,而不是随时可能熄火的 "半成 品"。 高可用核心基础——面向超节点的故障感知、管理及容错 AI大集群问题定位复杂,系统规模大、软硬技术栈复杂、调用链长,先要跨域故障定界,然 后各域内部故障定界定位,故障诊断面临巨大挑战;当前定位时间从数小时到数天,技能要 求高 ,难以找到故障设备和根因。华为团队为了让集群运维工具能够快速找到问题原因,有 效提升 ...
昇腾 AI 算力集群有多稳?万卡可用度 98%,秒级恢复故障不用愁
第一财经· 2025-06-10 19:25
AI算力集群高可用性技术 核心观点 - AI算力集群需具备"永不罢工"能力,通过高可用性技术保障24小时稳定运行,成为驱动业务创新的可靠引擎[1] - 华为提出六大创新方案解决AI集群故障率高、恢复慢等问题,包括三大基础能力(故障感知诊断、故障管理、光链路容错)和三大业务支撑能力(集群线性度、训练快恢、推理快恢)[12] 技术方案细节 故障感知与诊断 - 行业现状:万卡级AI集群日均故障≥1次,故障定位耗时数小时至数天[2] - 华为方案: - 构建全栈可观测能力(集群运行视图/告警视图/网络链路监控等)[2] - 开发四大诊断技术(全栈故障模式库/跨域故障诊断/计算节点诊断/网络诊断)[2] - 实现千种故障模式库与分钟级故障诊断[12] 硬件可靠性提升 - 通过可靠性系统工程实现CloudMatrix超节点万卡集群MTBF>24小时[3] - 光链路容错方案: - 首创光链路软件容错技术,容忍度>99%[3] - 新增10倍光模块后闪断率降至电链路水平[3] - HBM多比特ECC故障恢复时间缩短至1min,算力损失下降5%[3] 训练效率优化 - 线性度提升技术: - 采用TACO、NSF、NB、AICT四项关键技术[4] - 实测结果: - 135B稠密模型4K卡线性度96%[6] - 718B稀疏模型8K卡线性度95.05%,4K卡线性度96.48%[6] - 训练快恢系统: - 万卡集群恢复时间<10min[7] - 进程级重调度恢复<3min,在线恢复<30s[9] - 训练回滚时间缩短至单个迭代周期[9] 推理容错方案 - 大EP组网架构下提出三级容错:实例间切换/实例内重启/实例内无损恢复[9] - 关键技术突破: - 实例内重启恢复<5min[10] - TOKEN级重试技术使HBM KV Cache故障恢复<10s,较行业标准提升60倍[10] 技术成效 - 万卡集群可用度达98%[12] - 训推恢复最快达秒级[12] - 集群线性度>95%[12]
昇腾 AI 算力集群有多稳?万卡可用度 98%,秒级恢复故障不用愁
雷峰网· 2025-06-10 18:30
高可用性AI算力集群的核心价值 - AI算力集群作为智能应用的"超级大脑",需具备"永不罢工"能力以支撑实时路况分析、医疗影像处理等高强度任务[2] - 高可用性相当于为集群上"保险",使其既能应对日常故障又能保持突发故障下的稳定运行,避免成为"半成品"引擎[2] 故障感知与管理技术突破 - 行业现状:万卡级AI集群日均故障≥1次,故障定位耗时数小时至数天,严重影响训练效率[4] - 创新方案: - 构建全栈可观测能力(集群运行/告警视图、网络链路监控等)实现秒级故障感知[4] - 开发四大诊断技术(全栈故障模式库、跨域/计算节点/网络诊断)[4] - 建立可靠性分析模型,使CloudMatrix超节点MTBF>24小时[4] 光链路容错技术 - 首创超节点光链路软件容错方案,通过多层防护体系实现: - 光模块闪断容忍度>99%[5] - 新增10倍光模块后闪断率降至电链路水平[5][6] - HBM多比特ECC故障恢复时间缩短至1分钟,算力损失下降5%[6] 集群线性度优化 - 采用TACO、NSF等四项关键技术提升训练线性度: - Pangu Ultra 135B稠密模型在4K卡集群实现96%线性度[10] - Pangu Ultra MoE 718B稀疏模型在8K卡集群达95.05%线性度[10] 训练任务快恢系统 - 分层级恢复能力: - 万卡集群整体恢复<10分钟[12] - 进程级重调度恢复<3分钟[12] - 进程级在线恢复≤30秒[12] - 关键技术包括数据集索引加速、模型编译缓存等[12] 推理业务容错方案 - 大EP组网架构三级容错: - 实例内重启恢复<5分钟[14] - TOKEN级重试技术使HBM KV Cache故障恢复<10秒,较行业提升60倍[14] 综合技术成果 - 六大创新方案实现: - 万卡集群可用度98%[16] - 训推秒级快恢[16] - 线性度>95%[16] - 千种故障模式库与分钟级诊断[16] 未来技术方向 - 聚焦三大领域:新应用场景多元化、异构融合架构突破、智能自治工程范式[16]
华为杀入医疗圈!第21军团来袭
思宇MedTech· 2025-03-12 15:15
华为医疗卫生军团战略布局 - 华为成立"医疗卫生军团"整合5G、云计算、AI大模型技术构建AI辅助诊断解决方案体系[1] - 目标填补全球医疗数据处理能力鸿沟,2030年医疗数据量将达2.3万亿GB[1] - 军团模式采用"特种部队"式小团队,已成立超过20个垂直行业军团[1][4] 军团运营模式核心特点 - 垂直行业深度聚焦:单个军团专注特定行业形成端到端解决方案[14] - 扁平化管理:百人规模团队直接向高层汇报,可跨部门调用资源[5][14] - 资源整合:打破部门壁垒组建混编团队集中攻坚[4][14] - 目标驱动:首年需实现盈利,未达标团队面临重组[14] 三大核心技术优势 - 昇腾AI算力:1秒处理10万张医学影像,准确率超人类专家[7] - 瑞智病理大模型:16张算力卡实现秒级诊断,效率提升10倍[8] - 5G+云技术:实现远程手术指导和"移动ICU"急救场景[9] 医疗AI生态合作案例 - 润达医疗:联合开发病理平台覆盖200家医院,日服务量10万例[10] - 卫宁健康:WiNGPT大模型落地50家三甲医院,DRG系统市占率40%[11] - 东软集团:NeuAI设备提升CT/MRI诊断效率40%[12] - 联影医疗:智能阅片系统落地500家基层医院,年服务2万人次[15] 行业竞争格局 - 腾讯开发宫颈细胞识别算法获二类医疗器械证,正在申请三类证[19] - 科大讯飞打造全栈式医疗AI解决方案涵盖诊疗辅助等领域[19] - 美图提供AI测肤解决方案服务397家知名品牌[19] - 行业正形成以AI为核心的新一代医疗基础设施标准[19]