华为版《黑客帝国》首次亮相:训推复杂AI前先“彩排”,小时级预演万卡集群
量子位·2025-06-11 13:13
训练阶段:类似猛踩油门,但算力、内存、通信如果搭配不当,效率会暴跌; 而数字化风洞在这个过程中起到的作用,就像是一位让AI算力"少踩坑、跑得更快更稳"的智能调度专家。 金磊 发自 凹非寺 量子位 | 公众号 QbitAI 就在刚刚, 华为 首次亮相了一套 "虚" 的技术—— 数字化风洞 ,一个在正式训推复杂AI模型之前,可以在电脑中"彩排"的 虚拟环境平台 。 这套有种《黑客帝国》意味般的技术 (都是通过虚拟世界预演现实) ,是由 华为马尔科夫建模仿真团队 构建,可以 小时级预演万卡集群 方案 。 而之所以要在真枪实弹训推复杂AI模型之前来这么一个步骤,是因为华为研究团队发现,超过60%的算力浪费在硬件资源错配与系统耦合 上。 于是,就像汽车设计师用风洞测试新车性能一样,华为通过这个平台在电脑里模拟AI大模型训练和推理的过程,便提前发现问题并优化配 置。 一言蔽之,为的就是 避免浪费时间和算力 。 更具体来看,如果把运行大模型类比成开一辆高性能赛车,那么当下的痛点就主要集中在三点: 并且是对上述三大痛点逐一击破的那种。 Sim2Train:小时级自动寻优 训练大模型这件事可以说是越来越复杂,例如由于参数量越发 ...