Workflow
数字化风洞
icon
搜索文档
华为“数字化风洞”小时级预演万卡集群方案,昇腾助力大模型运行“又快又稳”
第一财经· 2025-06-11 20:12
大模型训推系统的效率挑战 - 超过60%的算力浪费在硬件资源错配与系统耦合上,传统优化方法难以解决芯片特性的"三角矛盾"(算力-带宽-容量失衡)[1] - 大规模训练集群存在利用率黑洞,MoE模型需要精准平衡计算与内存配比,极致压缩通信占比,否则效率骤降[3] - 动态实时推理系统任务两极分化,需同时满足高吞吐与低延迟,在不同任务场景实现动态效率最优[3] 数字化风洞技术 - 在虚拟环境中"彩排"AI模型训推,模拟不同参数、输入和资源分配方案,提前发现计算系统瓶颈点和逻辑漏洞[2] - 华为构建昇腾"数字化风洞",能够小时级预演万卡集群方案,通过性能加速与高可用性实现大模型"又快又稳"运行[2] - 动静态融合的大规模训练集群建模仿真方法,通过有向无环图精准刻画模型对计算、内存、通信的需求[7] Sim2Train训练集群优化 - 通过全量部署空间搜索、动态性能感知调度优化等技术释放算力潜能,实现并行配置、内存管理等小时级自动寻优,支撑MFU达成41%[4] - 负载-软件-硬件协同优化范式发现最优设计与优化方案,包括模型结构智能搜索、全栈架构建模与策略联合优化等[7] - 实现毫秒级资源再平衡与故障容错,保障作业万级小时无间断运行[3] Sim2Infer推理系统优化 - 通过推理服务多层级量化建模、动态智能优化等技术,实现高性能动态专家激活、自适应混合精度推理等,端到端推理性能提升30%+[5] - 构建多层次推理系统建模仿真,集成负载特征建模、层次化系统架构分析等五大核心功能模块[10] - 通过多维代价模型建模实现软硬件协同推理加速创新,在昇腾平台上综合实现推理性能提升30%+[10] Sim2Availability高可用架构 - 通过随机优化搜索、灵敏度分析等技术实现集群硬件架构可靠性瓶颈定位及优化,支撑万卡集群分钟级快恢,可用度达成98%[9] - 硬件故障模式全栈监控,通过马尔科夫链刻画系统随机行为,构建状态转移模型[9][11] - 软件统一协同管控仿真,通过动态规划弹性调度、极致去冗余并行掩盖优化等技术提升算力系统可用度[11] 未来发展方向 - 随着新型应用快速变化和系统架构持续创新,算力基础设施的架构设计与优化空间持续激增[12] - 需要深化负载自动图化建模、多维架构耦合仿真等关键技术,在系统瓶颈分析、最优部署策略求解等领域发力[12] - 推动国产算力基础设施建设与AI计算技术创新,助力华为昇腾集群高效平稳运行[12]
华为「数字化风洞」小时级预演万卡集群方案,昇腾助力大模型运行「又快又稳」
雷峰网· 2025-06-11 19:00
昇腾建模仿真平台 - 业界首次发布昇腾建模仿真平台,实现负载-优化策略-系统架构联动寻优,找到基础设施运行甜点 [1] - 华为研究团队发现超过60%的算力浪费在硬件资源错配与系统耦合上 [2] - 传统优化方法在芯片特性的"三角矛盾"(算力-带宽-容量失衡)前束手无策 [2] 大模型训推系统挑战 - 大规模训练集群利用率黑洞:大模型训练过程像"猛踩油门",MoE模型需精准平衡计算与内存配比 [4] - 动态实时推理系统任务两极分化:需同时满足高吞吐与低延迟,在不同任务场景实现动态效率最优 [4] - 复杂万卡集群长稳运行需突破计算-内存动态博弈、异构任务资源争抢及硬件耐久性瓶颈 [4] 数字化风洞解决方案 - 在虚拟环境的"数字化风洞"中预演AI模型训推,提前发现计算系统瓶颈点和逻辑漏洞 [6] - 华为马尔科夫建模仿真团队构建昇腾"数字化风洞",能够小时级预演万卡集群方案 [6] - 通过昇腾亲和的性能加速与训推系统极致高可用,助力大模型运行"又快又稳" [6] Sim2Train训练仿真系统 - 实现并行配置、内存管理、系统亲和通信策略小时级自动寻优,支撑MFU达成41% [7] - 通过有向无环图的算子组合,灵活表达大规模AI应用,快速精准扫描模型资源需求 [7] - 依托负载-软件-硬件协同优化范式,发现最优设计与优化方案 [7] Sim2Infer推理仿真系统 - 实现高性能动态专家激活、自适应混合精度推理等,端到端推理性能提升30%+ [8] - 构建负载生成-请求调度-推理引擎-硬件系统四层架构的复杂推理建模仿真系统 [10] - 通过软硬协同建模仿真驱动推理系统创新优化,综合实现推理性能提升30%+ [10] Sim2Availability高可用仿真 - 实现集群硬件架构可靠性瓶颈定位及优化,支撑万卡集群分钟级快恢,可用度达成98% [11] - 高效精准构建集群系统对计算、存储、网络的"状态监控",通过马尔科夫链刻画系统随机行为 [13] - 通过动态规划弹性调度、极致去冗余并行掩盖优化等技术,实现算力系统可用度显著提升 [13] 未来发展方向 - 随着新型应用快速变化和系统架构持续创新,算力基础设施架构设计与优化空间持续激增 [16] - 华为将继续深化负载自动图化建模、多维架构耦合仿真等关键技术 [16] - 在系统瓶颈分析、最优部署策略求解、架构设计空间探索等领域发力 [16]
华为版《黑客帝国》首次亮相:训推复杂AI前先“彩排”,小时级预演万卡集群
量子位· 2025-06-11 13:13
数字化风洞技术概述 - 公司首次推出数字化风洞技术,可在AI模型训练前进行虚拟环境预演,小时级模拟万卡集群方案[1] - 技术由马尔科夫建模仿真团队开发,旨在解决60%算力浪费在硬件资源错配与系统耦合的问题[1] - 类比汽车风洞测试,通过虚拟预演优化AI训练配置,避免时间和算力浪费[1][2] 技术核心痛点与解决方案 - 当前大模型运行三大痛点:训练阶段资源错配、推理阶段任务差异大、万卡集群管理复杂度高[3][11] - Sim2Train训练仿真平台通过动静态融合建模和硬件深度适配,实现昇腾设备效率精准提升[5][7][8] - 支持芯片级/拓扑级/负载级全栈优化,基于实时数据自动反馈校准硬件建模[10] 训练阶段创新(Sim2Train) - 采用模块化拼装AI任务流程,灵活构建复杂模型并分析资源消耗[7] - 结合智能搜索算法实现模型结构与硬件能力最优均衡,提升大规模训练效率[9] - 针对CloudMatrix超节点拓扑实现联合优化,覆盖计算/内存/通信多维度[10] 推理阶段创新(Sim2Infer) - 端到端推理性能提升30%,通过五层建模:负载特征/硬件架构/部署策略/仿真运行/自动优化[13][14] - 支持MoE模型结构优化建议,实现大EP场景最佳部署方案寻优[14] - 基于离散事件模拟技术精确计算推理耗时,自动匹配昇腾平台最优配置[14] 高可用性保障(Sim2Availability) - 通过马尔科夫模型虚拟化集群,秒级定位故障并模拟恢复策略[16][17] - 关键环节包括故障生成器(模拟NPU/内存/光模块故障)、探测器(异常判断)、影响分析(中断/降速评估)[20] - 恢复策略库涵盖Step级回滚/进程级恢复/全量恢复等多场景方案[20]