Workflow
建模仿真
icon
搜索文档
华为“数字化风洞”小时级预演万卡集群方案,昇腾助力大模型运行“又快又稳”
第一财经· 2025-06-11 20:12
大模型训推系统的效率挑战 - 超过60%的算力浪费在硬件资源错配与系统耦合上,传统优化方法难以解决芯片特性的"三角矛盾"(算力-带宽-容量失衡)[1] - 大规模训练集群存在利用率黑洞,MoE模型需要精准平衡计算与内存配比,极致压缩通信占比,否则效率骤降[3] - 动态实时推理系统任务两极分化,需同时满足高吞吐与低延迟,在不同任务场景实现动态效率最优[3] 数字化风洞技术 - 在虚拟环境中"彩排"AI模型训推,模拟不同参数、输入和资源分配方案,提前发现计算系统瓶颈点和逻辑漏洞[2] - 华为构建昇腾"数字化风洞",能够小时级预演万卡集群方案,通过性能加速与高可用性实现大模型"又快又稳"运行[2] - 动静态融合的大规模训练集群建模仿真方法,通过有向无环图精准刻画模型对计算、内存、通信的需求[7] Sim2Train训练集群优化 - 通过全量部署空间搜索、动态性能感知调度优化等技术释放算力潜能,实现并行配置、内存管理等小时级自动寻优,支撑MFU达成41%[4] - 负载-软件-硬件协同优化范式发现最优设计与优化方案,包括模型结构智能搜索、全栈架构建模与策略联合优化等[7] - 实现毫秒级资源再平衡与故障容错,保障作业万级小时无间断运行[3] Sim2Infer推理系统优化 - 通过推理服务多层级量化建模、动态智能优化等技术,实现高性能动态专家激活、自适应混合精度推理等,端到端推理性能提升30%+[5] - 构建多层次推理系统建模仿真,集成负载特征建模、层次化系统架构分析等五大核心功能模块[10] - 通过多维代价模型建模实现软硬件协同推理加速创新,在昇腾平台上综合实现推理性能提升30%+[10] Sim2Availability高可用架构 - 通过随机优化搜索、灵敏度分析等技术实现集群硬件架构可靠性瓶颈定位及优化,支撑万卡集群分钟级快恢,可用度达成98%[9] - 硬件故障模式全栈监控,通过马尔科夫链刻画系统随机行为,构建状态转移模型[9][11] - 软件统一协同管控仿真,通过动态规划弹性调度、极致去冗余并行掩盖优化等技术提升算力系统可用度[11] 未来发展方向 - 随着新型应用快速变化和系统架构持续创新,算力基础设施的架构设计与优化空间持续激增[12] - 需要深化负载自动图化建模、多维架构耦合仿真等关键技术,在系统瓶颈分析、最优部署策略求解等领域发力[12] - 推动国产算力基础设施建设与AI计算技术创新,助力华为昇腾集群高效平稳运行[12]
昇腾“数字化风洞”问世:让AI算力配置从经验驱动迈向建模驱动
21世纪经济报道· 2025-06-11 20:05
大模型训推系统的挑战与优化 - 大模型训推系统面临硬件资源错配与系统耦合问题,超过60%的算力浪费在这些方面 [1] - 传统优化方法难以解决芯片特性的"三角矛盾"(算力-带宽-容量失衡) [1] - 动态负载需求下存在软硬件博弈的三大挑战 [2] 数字化风洞解决方案 - 采用"先模拟后实战"方式,在虚拟环境中预演复杂AI模型的表现 [3] - 华为构建昇腾"数字化风洞",能小时级预演万卡集群方案 [3] - 通过Sim2Train实现训练集群架构仿真与设计空间自动寻优,支撑MFU达成41% [3] 训练集群优化 - 大规模训练集群存在利用率黑洞问题,MoE模型需要精准平衡计算与内存配比 [5] - 通过动静态融合的建模仿真方法,快速精准扫描模型对计算、内存、通信的需求 [6] - 实现负载-软件-硬件协同优化,达成模型性能与功能能力的最优均衡 [6] 推理系统优化 - 推理系统任务呈现两极分化,需同时满足高吞吐与低延迟 [5] - 通过Sim2Infer实现推理系统架构仿真与运行时在线自优化 [5] - 端到端推理性能提升30%+,实现高性能动态专家激活和自适应混合精度推理 [7] 高可用架构 - 通过Sim2Availability实现高可用架构仿真与统一协同管控 [9] - 支撑万卡集群分钟级快恢,可用度达成98% [9] - 采用随机优化搜索、灵敏度分析等技术实现集群硬件架构可靠性优化 [9] 未来发展方向 - 新型应用快速变化推动系统架构持续创新 [11] - 需要建模仿真方法支撑算力基础设施持续演进 [11] - 深化负载自动图化建模、多维架构耦合仿真等关键技术 [11] 多层级推理系统 - 构建负载生成-请求调度-推理引擎-硬件系统四层架构 [12] - 集成五大核心功能模块实现复杂推理建模仿真 [12] - 通过软硬协同实现推理性能提升30%+ [12] 故障监控与恢复 - 采用马尔科夫链刻画系统随机行为,构建状态转移模型 [13] - 通过蒙特卡洛分析硬件可靠性瓶颈 [13] - 实现动态规划弹性调度和极致去冗余并行掩盖优化 [13]
华为「数字化风洞」小时级预演万卡集群方案,昇腾助力大模型运行「又快又稳」
雷峰网· 2025-06-11 19:00
昇腾建模仿真平台 - 业界首次发布昇腾建模仿真平台,实现负载-优化策略-系统架构联动寻优,找到基础设施运行甜点 [1] - 华为研究团队发现超过60%的算力浪费在硬件资源错配与系统耦合上 [2] - 传统优化方法在芯片特性的"三角矛盾"(算力-带宽-容量失衡)前束手无策 [2] 大模型训推系统挑战 - 大规模训练集群利用率黑洞:大模型训练过程像"猛踩油门",MoE模型需精准平衡计算与内存配比 [4] - 动态实时推理系统任务两极分化:需同时满足高吞吐与低延迟,在不同任务场景实现动态效率最优 [4] - 复杂万卡集群长稳运行需突破计算-内存动态博弈、异构任务资源争抢及硬件耐久性瓶颈 [4] 数字化风洞解决方案 - 在虚拟环境的"数字化风洞"中预演AI模型训推,提前发现计算系统瓶颈点和逻辑漏洞 [6] - 华为马尔科夫建模仿真团队构建昇腾"数字化风洞",能够小时级预演万卡集群方案 [6] - 通过昇腾亲和的性能加速与训推系统极致高可用,助力大模型运行"又快又稳" [6] Sim2Train训练仿真系统 - 实现并行配置、内存管理、系统亲和通信策略小时级自动寻优,支撑MFU达成41% [7] - 通过有向无环图的算子组合,灵活表达大规模AI应用,快速精准扫描模型资源需求 [7] - 依托负载-软件-硬件协同优化范式,发现最优设计与优化方案 [7] Sim2Infer推理仿真系统 - 实现高性能动态专家激活、自适应混合精度推理等,端到端推理性能提升30%+ [8] - 构建负载生成-请求调度-推理引擎-硬件系统四层架构的复杂推理建模仿真系统 [10] - 通过软硬协同建模仿真驱动推理系统创新优化,综合实现推理性能提升30%+ [10] Sim2Availability高可用仿真 - 实现集群硬件架构可靠性瓶颈定位及优化,支撑万卡集群分钟级快恢,可用度达成98% [11] - 高效精准构建集群系统对计算、存储、网络的"状态监控",通过马尔科夫链刻画系统随机行为 [13] - 通过动态规划弹性调度、极致去冗余并行掩盖优化等技术,实现算力系统可用度显著提升 [13] 未来发展方向 - 随着新型应用快速变化和系统架构持续创新,算力基础设施架构设计与优化空间持续激增 [16] - 华为将继续深化负载自动图化建模、多维架构耦合仿真等关键技术 [16] - 在系统瓶颈分析、最优部署策略求解、架构设计空间探索等领域发力 [16]
训推大模型,为何应该先彩排?
虎嗅APP· 2025-06-11 18:39
通用人工智能(AGI)发展路径 - 单点技术演进边际效应递减,系统性能天花板转向系统工程上限,需通过系统工程创新实现整体效能最优[1] - 华为推出《华为技术披露集》系列,首次全面详述技术细节,旨在构建开放协作生态系统助力昇腾生态发展[1][2] 大模型训推系统核心挑战 - 超过60%算力浪费在硬件资源错配与系统耦合上,传统优化方法难以解决算力-带宽-容量失衡的"三角矛盾"[3] - 大规模训练集群存在利用率黑洞,MoE模型需精准平衡计算与内存配比,通信占比压缩不当会导致效率骤降[5] - 动态实时推理系统需同时满足高吞吐与低延迟,万卡集群需实现毫秒级资源再平衡与故障容错保障长稳运行[6] 破局方案:"数字化风洞"技术 - 采用虚拟环境预演技术,小时级预演万卡集群方案,通过性能加速与高可用设计实现大模型"又快又稳"运行[7][8] - Sim2Train训练仿真系统实现并行配置、内存管理等自动寻优,支撑MFU达41%,算力潜能释放显著[8][9] - 动静态融合建模仿真方法通过有向无环图精准刻画计算/内存/通信需求,结合硬件刻画能力实现效率优化[9][10] 推理系统性能优化 - Sim2Infer推理仿真系统实现动态智能优化,端到端推理性能提升30%+,支持低延迟高吞吐部署[12][13] - 多层级建模仿真系统集成负载特征建模、离散事件驱动仿真等五大模块,实现软硬件协同加速创新[12][13] 高可用集群保障技术 - Sim2Avaliablity高可用仿真实现万卡集群分钟级快恢,可用度达98%,硬件可靠性瓶颈定位精准[15][16] - 马尔科夫链构建系统状态监控模型,结合蒙特卡洛分析实现故障随机模拟与集群硬件可控[16] 未来技术演进方向 - 新型应用如细粒度MoE、Agentic AI等驱动系统架构创新,需建模仿真支撑算力基础设施持续演进[18][20] - 华为将持续深化负载自动图化建模、多维架构耦合仿真等关键技术,推动国产算力基础设施建设[20]
让算力航母稳健远航,华为首次披露昇腾算力基础设施的压舱石
21世纪经济报道· 2025-06-09 20:08
AI算力集群技术演进 - AI算力集群通过整合上万台计算机形成"算力航空母舰",以应对万亿参数大模型的计算需求,单机算力已无法满足复杂AI任务[1] - 集群需解决三大核心挑战:设备协同工作、故障时高效运行、训练中断快速修复,华为团队通过工程创新实现技术突破[1] 超节点高可用技术 - 采用"系统层-业务层-运维层"三级容错方案,将故障转为亚健康问题,通过超时代答欺骗OS和网络路由切换防止系统级故障[1] - 在CloudMatrix 384超节点中实现租户无感知的网络闪断重试,运维层通过亚健康感知技术主动消除故障影响[1] 集群线性度优化 - 提出TACO、NSF、NB、AICT四项关键技术,实现算力规模与性能的线性增长,PanGu Ultra 135B模型在4K卡集群实现96%线性度[1] - PanGu Ultra MoE 718B稀疏模型在8K卡集群线性度达95.05%,4K卡CloudMatrix集群线性度达96.48%[1] 万卡训练快速恢复 - 进程级重调度恢复技术将训练恢复时间缩短至3分钟内,在线恢复技术针对硬件UCE故障实现30秒内恢复[1] - 算子级在线恢复通过HCCL算子重试实现网络故障秒级恢复,训练任务不中断[1] MoE模型推理容错 - 三级容错方案实现实例间切换/重启/无损恢复,实例恢复时间从20分钟降至5分钟[1] - TOKEN级重试技术在CloudMatrix 384场景下实现30-60秒实例恢复,减卡弹性恢复技术实现秒级无感知恢复[1] 故障感知与诊断 - 构建全栈可观测能力,包含集群运行视图、网络链路监控等模块,实现硬件故障实时监测[1] - 建立全栈故障模式库,涵盖跨域诊断、计算节点诊断、网络诊断等技术,提升故障定位效率[1] 数字化仿真建模 - Sim2Train平台通过AdaptPack编排优化长序列PP空泡,吞吐提升4.5%-8.24%,AdaptS/R技术缩短单步时长3.25%[1][2] - Sim2Infer推理仿真平台实现硬件指令自动化映射,平均误差仅6.6%,Sim2Availability框架可模拟复杂系统故障场景[1][2] 框架迁移与生态兼容 - MindSpore构建MSAdapter工具覆盖90%以上PyTorch接口,通过多级流水线技术提升动态图执行效率[1] - 推理阶段兼容HuggingFace权重配置,vLLM-MindSpore插件支持大模型服务化,实现盘古72B模型快速部署[1] 未来技术演进方向 - 算法-算力-工程协同进化将形成"应用需求→硬件创新→工程反哺"闭环,光电混合架构释放性能潜力[1] - 智能化工程手段如AI运维将弥合系统复杂度,推动高效、弹性、自愈的下一代算力基础设施发展[1]