昇腾“数字化风洞”

搜索文档
昇腾“数字化风洞”问世:让AI算力配置从经验驱动迈向建模驱动
21世纪经济报道· 2025-06-11 20:05
大模型训推系统的挑战与优化 - 大模型训推系统面临硬件资源错配与系统耦合问题,超过60%的算力浪费在这些方面 [1] - 传统优化方法难以解决芯片特性的"三角矛盾"(算力-带宽-容量失衡) [1] - 动态负载需求下存在软硬件博弈的三大挑战 [2] 数字化风洞解决方案 - 采用"先模拟后实战"方式,在虚拟环境中预演复杂AI模型的表现 [3] - 华为构建昇腾"数字化风洞",能小时级预演万卡集群方案 [3] - 通过Sim2Train实现训练集群架构仿真与设计空间自动寻优,支撑MFU达成41% [3] 训练集群优化 - 大规模训练集群存在利用率黑洞问题,MoE模型需要精准平衡计算与内存配比 [5] - 通过动静态融合的建模仿真方法,快速精准扫描模型对计算、内存、通信的需求 [6] - 实现负载-软件-硬件协同优化,达成模型性能与功能能力的最优均衡 [6] 推理系统优化 - 推理系统任务呈现两极分化,需同时满足高吞吐与低延迟 [5] - 通过Sim2Infer实现推理系统架构仿真与运行时在线自优化 [5] - 端到端推理性能提升30%+,实现高性能动态专家激活和自适应混合精度推理 [7] 高可用架构 - 通过Sim2Availability实现高可用架构仿真与统一协同管控 [9] - 支撑万卡集群分钟级快恢,可用度达成98% [9] - 采用随机优化搜索、灵敏度分析等技术实现集群硬件架构可靠性优化 [9] 未来发展方向 - 新型应用快速变化推动系统架构持续创新 [11] - 需要建模仿真方法支撑算力基础设施持续演进 [11] - 深化负载自动图化建模、多维架构耦合仿真等关键技术 [11] 多层级推理系统 - 构建负载生成-请求调度-推理引擎-硬件系统四层架构 [12] - 集成五大核心功能模块实现复杂推理建模仿真 [12] - 通过软硬协同实现推理性能提升30%+ [12] 故障监控与恢复 - 采用马尔科夫链刻画系统随机行为,构建状态转移模型 [13] - 通过蒙特卡洛分析硬件可靠性瓶颈 [13] - 实现动态规划弹性调度和极致去冗余并行掩盖优化 [13]