Workflow
华为版《黑客帝国》首次亮相:训推复杂AI前先“彩排”,小时级预演万卡集群
量子位·2025-06-11 13:13

数字化风洞技术概述 - 公司首次推出数字化风洞技术,可在AI模型训练前进行虚拟环境预演,小时级模拟万卡集群方案[1] - 技术由马尔科夫建模仿真团队开发,旨在解决60%算力浪费在硬件资源错配与系统耦合的问题[1] - 类比汽车风洞测试,通过虚拟预演优化AI训练配置,避免时间和算力浪费[1][2] 技术核心痛点与解决方案 - 当前大模型运行三大痛点:训练阶段资源错配、推理阶段任务差异大、万卡集群管理复杂度高[3][11] - Sim2Train训练仿真平台通过动静态融合建模和硬件深度适配,实现昇腾设备效率精准提升[5][7][8] - 支持芯片级/拓扑级/负载级全栈优化,基于实时数据自动反馈校准硬件建模[10] 训练阶段创新(Sim2Train) - 采用模块化拼装AI任务流程,灵活构建复杂模型并分析资源消耗[7] - 结合智能搜索算法实现模型结构与硬件能力最优均衡,提升大规模训练效率[9] - 针对CloudMatrix超节点拓扑实现联合优化,覆盖计算/内存/通信多维度[10] 推理阶段创新(Sim2Infer) - 端到端推理性能提升30%,通过五层建模:负载特征/硬件架构/部署策略/仿真运行/自动优化[13][14] - 支持MoE模型结构优化建议,实现大EP场景最佳部署方案寻优[14] - 基于离散事件模拟技术精确计算推理耗时,自动匹配昇腾平台最优配置[14] 高可用性保障(Sim2Availability) - 通过马尔科夫模型虚拟化集群,秒级定位故障并模拟恢复策略[16][17] - 关键环节包括故障生成器(模拟NPU/内存/光模块故障)、探测器(异常判断)、影响分析(中断/降速评估)[20] - 恢复策略库涵盖Step级回滚/进程级恢复/全量恢复等多场景方案[20]