Workflow
数字化风洞
icon
搜索文档
华为“数字化风洞”小时级预演万卡集群方案,昇腾助力大模型运行“又快又稳”
第一财经· 2025-06-11 20:12
大模型训推系统的效率挑战 - 超过60%的算力浪费在硬件资源错配与系统耦合上,传统优化方法难以解决芯片特性的"三角矛盾"(算力-带宽-容量失衡)[1] - 大规模训练集群存在利用率黑洞,MoE模型需要精准平衡计算与内存配比,极致压缩通信占比,否则效率骤降[3] - 动态实时推理系统任务两极分化,需同时满足高吞吐与低延迟,在不同任务场景实现动态效率最优[3] 数字化风洞技术 - 在虚拟环境中"彩排"AI模型训推,模拟不同参数、输入和资源分配方案,提前发现计算系统瓶颈点和逻辑漏洞[2] - 华为构建昇腾"数字化风洞",能够小时级预演万卡集群方案,通过性能加速与高可用性实现大模型"又快又稳"运行[2] - 动静态融合的大规模训练集群建模仿真方法,通过有向无环图精准刻画模型对计算、内存、通信的需求[7] Sim2Train训练集群优化 - 通过全量部署空间搜索、动态性能感知调度优化等技术释放算力潜能,实现并行配置、内存管理等小时级自动寻优,支撑MFU达成41%[4] - 负载-软件-硬件协同优化范式发现最优设计与优化方案,包括模型结构智能搜索、全栈架构建模与策略联合优化等[7] - 实现毫秒级资源再平衡与故障容错,保障作业万级小时无间断运行[3] Sim2Infer推理系统优化 - 通过推理服务多层级量化建模、动态智能优化等技术,实现高性能动态专家激活、自适应混合精度推理等,端到端推理性能提升30%+[5] - 构建多层次推理系统建模仿真,集成负载特征建模、层次化系统架构分析等五大核心功能模块[10] - 通过多维代价模型建模实现软硬件协同推理加速创新,在昇腾平台上综合实现推理性能提升30%+[10] Sim2Availability高可用架构 - 通过随机优化搜索、灵敏度分析等技术实现集群硬件架构可靠性瓶颈定位及优化,支撑万卡集群分钟级快恢,可用度达成98%[9] - 硬件故障模式全栈监控,通过马尔科夫链刻画系统随机行为,构建状态转移模型[9][11] - 软件统一协同管控仿真,通过动态规划弹性调度、极致去冗余并行掩盖优化等技术提升算力系统可用度[11] 未来发展方向 - 随着新型应用快速变化和系统架构持续创新,算力基础设施的架构设计与优化空间持续激增[12] - 需要深化负载自动图化建模、多维架构耦合仿真等关键技术,在系统瓶颈分析、最优部署策略求解等领域发力[12] - 推动国产算力基础设施建设与AI计算技术创新,助力华为昇腾集群高效平稳运行[12]
昇腾“数字化风洞”问世:让AI算力配置从经验驱动迈向建模驱动
21世纪经济报道· 2025-06-11 20:05
大模型训推系统的挑战与优化 - 大模型训推系统面临硬件资源错配与系统耦合问题,超过60%的算力浪费在这些方面 [1] - 传统优化方法难以解决芯片特性的"三角矛盾"(算力-带宽-容量失衡) [1] - 动态负载需求下存在软硬件博弈的三大挑战 [2] 数字化风洞解决方案 - 采用"先模拟后实战"方式,在虚拟环境中预演复杂AI模型的表现 [3] - 华为构建昇腾"数字化风洞",能小时级预演万卡集群方案 [3] - 通过Sim2Train实现训练集群架构仿真与设计空间自动寻优,支撑MFU达成41% [3] 训练集群优化 - 大规模训练集群存在利用率黑洞问题,MoE模型需要精准平衡计算与内存配比 [5] - 通过动静态融合的建模仿真方法,快速精准扫描模型对计算、内存、通信的需求 [6] - 实现负载-软件-硬件协同优化,达成模型性能与功能能力的最优均衡 [6] 推理系统优化 - 推理系统任务呈现两极分化,需同时满足高吞吐与低延迟 [5] - 通过Sim2Infer实现推理系统架构仿真与运行时在线自优化 [5] - 端到端推理性能提升30%+,实现高性能动态专家激活和自适应混合精度推理 [7] 高可用架构 - 通过Sim2Availability实现高可用架构仿真与统一协同管控 [9] - 支撑万卡集群分钟级快恢,可用度达成98% [9] - 采用随机优化搜索、灵敏度分析等技术实现集群硬件架构可靠性优化 [9] 未来发展方向 - 新型应用快速变化推动系统架构持续创新 [11] - 需要建模仿真方法支撑算力基础设施持续演进 [11] - 深化负载自动图化建模、多维架构耦合仿真等关键技术 [11] 多层级推理系统 - 构建负载生成-请求调度-推理引擎-硬件系统四层架构 [12] - 集成五大核心功能模块实现复杂推理建模仿真 [12] - 通过软硬协同实现推理性能提升30%+ [12] 故障监控与恢复 - 采用马尔科夫链刻画系统随机行为,构建状态转移模型 [13] - 通过蒙特卡洛分析硬件可靠性瓶颈 [13] - 实现动态规划弹性调度和极致去冗余并行掩盖优化 [13]
华为「数字化风洞」小时级预演万卡集群方案,昇腾助力大模型运行「又快又稳」
雷峰网· 2025-06-11 19:00
大模型 训推系统 宛如一辆精密调校的赛车,即便搭载顶级引擎(高算力芯片),如果油箱(内存)、变 速箱(带宽)与路况(任务类型)不匹配,仍会陷入 "龟速"困局。华为研究团队发现,超过60%的算力 浪费在硬件资源错配与系统耦合上,而传统"人拉肩扛"的优化方法在芯片特性的"三角矛盾"(算力-带宽- 容量失衡)前束手无策。 01 三大挑战:动态负载需求下的软硬件博弈 大规模训练集群 的 利用率黑洞 : 大模型训练 过程像驾驶中的 "猛踩油门"( 训练 阶段密集计算) , MoE模型更如混合动力车,需精准平衡计算与内存配比, 极致压缩通信占比, 稍有不慎便效率 骤降。 动态实时 推理系统 任务的两极分化 :从短问答(城市道路)到长文本生成(越野山路), 推理阶 段 硬件需同时满足高吞吐与低延迟,如同要求一辆车兼具超跑的提速能力与越野的持久耐力 ,在不 同任务场景实现动态效率最优 。 复杂万卡集群的 长稳运行: 为 突破 计算 -内存动态博弈 (服务区分配) 、异构任务资源争抢 (车祸变道) 及硬件耐久性 (车道维护) 瓶颈, 需 实现毫秒级资源再平衡与故障容错,保障作业 万级小时无间断运行。 " 业界首次发布昇腾建模仿 ...
华为版《黑客帝国》首次亮相:训推复杂AI前先“彩排”,小时级预演万卡集群
量子位· 2025-06-11 13:13
训练阶段:类似猛踩油门,但算力、内存、通信如果搭配不当,效率会暴跌; 而数字化风洞在这个过程中起到的作用,就像是一位让AI算力"少踩坑、跑得更快更稳"的智能调度专家。 金磊 发自 凹非寺 量子位 | 公众号 QbitAI 就在刚刚, 华为 首次亮相了一套 "虚" 的技术—— 数字化风洞 ,一个在正式训推复杂AI模型之前,可以在电脑中"彩排"的 虚拟环境平台 。 这套有种《黑客帝国》意味般的技术 (都是通过虚拟世界预演现实) ,是由 华为马尔科夫建模仿真团队 构建,可以 小时级预演万卡集群 方案 。 而之所以要在真枪实弹训推复杂AI模型之前来这么一个步骤,是因为华为研究团队发现,超过60%的算力浪费在硬件资源错配与系统耦合 上。 于是,就像汽车设计师用风洞测试新车性能一样,华为通过这个平台在电脑里模拟AI大模型训练和推理的过程,便提前发现问题并优化配 置。 一言蔽之,为的就是 避免浪费时间和算力 。 更具体来看,如果把运行大模型类比成开一辆高性能赛车,那么当下的痛点就主要集中在三点: 并且是对上述三大痛点逐一击破的那种。 Sim2Train:小时级自动寻优 训练大模型这件事可以说是越来越复杂,例如由于参数量越发 ...