Workflow
践行深度用云,大模型混合云,十大创新技术
华为·2025-02-19 09:35

报告行业投资评级 未提及 报告的核心观点 报告围绕大模型混合云的十大创新技术展开,分析各技术业界难题,介绍华为云对应解决方案及价值收益,助力政企行业实现AI智能化规模化应用,提升大模型训练效率、精度、稳定性和安全性等[17][37][51] 根据相关目录分别进行总结 多样性算力调度 - 业界难题:异构算力管理、分布式训练调度、AI资源碎片、推理算力利用率提升、AI算力多团队共享等存在挑战[17][18][19] - 解决方案:基于云原生集群管理框架和Volcano调度框架,实现分布式AI任务调度增强,做逻辑子池、队列优先级等创新优化;引入K8s的Device - plugin调度插件框架和AI异构算力插件;设计Volcano调度框架实现组调度功能并增强;开发增强调度逻辑实现NPU算力切分[22][27][28] - 价值收益:实现x86、ARM、GPU、NPU统一纳管调度,千亿模型训练算力利用率达47% [33][34][35] 云边协同 - 业界难题:AI大模型应用于工业场景时,需解决规模化部署与运维效率问题,构建异常样本反馈与模型快速迭代机制[37] - 解决方案:华为混合云推出云边协同方案,支持中心训练、边缘推理以及模型边学边用、持续迭代;提供统一的部署、管理、运维能力;基于云边协同架构实现模型边用边学[39][42][44] - 价值收益:可纳管10万 + 边端推理设备,模型一键式部署达分钟级,模型精度提升20%,边缘推理低时延达毫秒级[48] AI - Native存储 - 业界难题:海量小文件加载慢,故障影响大、恢复慢,传统存储架构难以应对超大规模AI集群数据快读、Checkpoint快存、故障快速恢复需求[51][54] - 解决方案:基于OBS数据湖、SFS Turbo高性能并行文件系统和AI Turbo加速的创新三层架构;SFS Turbo加速训练数据集访问,AI Turbo加速训练检查点保存和加载[55][56] - 价值收益:亿级训练原始数据加载效率提升20倍,集群故障恢复检查点加载耗时从小时级降至分钟级[63] 增强AI网络 - 业界难题:大模型训练通信开销占比高,传统ECMP等价路由负荷分担机制在AI场景易造成链路流量不均和网络拥塞[65][67] - 解决方案:基于ROCE无损网络打造全网负载均衡算法,针对单AI训练任务实现网络级负载均衡,通过AI调度平台、网络控制器、设备统一协同实现多任务全网负载均衡[71][72][75] - 价值收益:实现无损大带宽从100G提升到200G/400G,全网有效吞吐从30%提升到95%以上[78] 算子加速 - 业界难题:未经调优的模型性能差、开发效率低,昇腾算力无法充分释放,算子开发门槛高[80][84] - 解决方案:围绕昇腾AI处理器打造CANN异构计算架构,提供融合算子库和AscendC算子编程语言;设计昇腾亲和的算子融合算法,使用AscendC降低算子开发门槛[85][86][91] - 价值收益:常用模型性能提升50%,算子开发周期从2人月降至2人周[95] 全链路数据工程 - 业界难题:数据获取难、质量差、结果不准确,制约数据质量提升[97][100] - 解决方案:从数据获取、加工到利用三个阶段开展技术创新,打造8大工具,包括内部数据集成和外部数据流通工具、智能清洗等加工工具、数据安全等利用工具[101][104][109] - 价值收益:减少50%手工操作,加工效率提升10倍 +,准确率达95% [113] 统一数据编码 - 业界难题:数据种类单一导致预测精度低,数据来源多样使人工适配工作量大,限制预测大模型规模应用[116][119] - 解决方案:创新统一数据编码技术将不同来源数据转换为三元组并按图组织;采用统一预训练大模型架构,盘古预测大模型支持下游任务微调[120][121] - 价值收益:预测精度提升10%,微调上线达天级[123] 精细视觉神经网络 - 业界难题:传统视觉模型泛化能力弱、精度差,高分辨率图像处理效率低[126][127] - 解决方案:创新精细视觉神经网络,通过细粒度图文对齐技术解决特征提取粒度不完整问题,通过视觉空间压缩技术解决高分辨率图像处理效率问题[130] - 价值收益:80% + 场景开箱即用,新场景精度达80% +,训推提速1倍,计算量压缩40% [136] 无感断点续训 - 业界难题:大模型训练故障感知不全且慢,故障恢复仅支持重调度、耗时长[139][140] - 解决方案:创新无感断点续训技术,具备全栈故障模式库和三级自愈架构,实现故障分钟级感知和恢复[144] - 价值收益:覆盖95%常见故障,故障感知和恢复达分钟级[152] 安全护栏 - 业界难题:大模型应用带来Prompt攻击、隐私泄露、内容合规、鉴伪检测等风险[156][159][160] - 解决方案:华为云Stack提供1 + 7安全体系和安全护栏,具备Prompt攻击检测、隐私检测脱敏、内容合规检测、生成式AI鉴伪能力[161] - 价值收益:拦截攻击90% +,保护30 + 种隐私数据,拦截95% + 不良内容,鉴伪响应达毫秒级[174]