Workflow
高质量大模型基础设施研究报告(2024年)
中国信通院·2025-02-05 17:13

报告行业投资评级 报告未提及行业投资评级相关内容 报告的核心观点 - 大模型基础设施是推动大模型应用落地的关键要素,但目前面临可用性低、稳定性差等问题,需从多层面协同优化 [6] - 大模型基础设施在计算、存储、网络、开发工具链和运维管理等方面存在挑战,同时也有相应的关键技术来应对 [27][49] - 建立大模型基础设施评价指标,可全面评估其运行情况,帮助企业构建高质量基础设施 [68] - 大模型落地需求推动推理侧基础设施发展,绿色低碳将成为未来发展重点 [94][95] 根据相关目录分别进行总结 一、大模型基础设施概述 - 大模型技术推动行业智能化转型,但参数量增加给落地带来挑战,提高基础设施能力是首要任务 [12] - 大模型基础设施是支持大模型训练、部署和应用的软硬件资源集合,具备高可用、高性能、可扩展、可评价等特性 [13][15] - 当前大模型基础设施在技术、产业和政策方面均有发展,如存储和网络技术提升、科技大厂形成生态、各国加大资金投入 [23][24][25] 二、大模型基础设施挑战 - 计算资源分配粗放,利用率低,存在任务排布不合理、推理算力空闲、资源超额申请等问题 [30][31][32] - 海量数据处理低效,数据存储成为瓶颈,包括原始数据归集时间长、预处理时间长、检查点文件读写效率低、推理记忆时间短等问题 [33][34][35] - 并行计算规模攀升,网络通信成为阻碍,训练通信开销大,网络规划需综合考虑多种需求 [37][38][39] - 模型参数急剧增长,开发效率成为约束,训练、调优、压缩、部署推理等环节面临新挑战 [40][41][42] - 基础设施故障率高,运维能力成为挑战,超万卡集群故障频发,运维难度大 [46][47][48] 三、大模型基础设施关键技术 - 高效算力管理调度技术包括虚拟化、容器化、池化技术,异构并行技术和基于预测模型的算力调度体系 [49][50] - 高性能大模型存储技术有KV-cache技术、加速卡直通存储、并行文件系统、近数据向量知识库和数据编织技术 [51][53][54] - 高通量大规模网络技术包括高性能互联技术、网络负载均衡技术和多网络互联 [56][57][59] - 高效能大模型开发技术涵盖训练加速技术、大模型微调技术、模型压缩技术和大模型推理引擎 [62][63][64] - 高容错大模型运维技术包括训前健康检查、全栈全路径统一监控分析、断点续训和智能运维 [66][67] 四、高质量大模型基础设施评价指标 - 建立大模型基础设施评价指标,从技术能力和性能层面,聚焦计算、存储、网络、开发工具链及运维等维度进行评价 [68][70] - 技术能力指标基于大模型全生命周期流程的功能性需求建立,性能能力指标基于其性能需求建立 [72][74][75] 五、高质量大模型基础设施典型实践 - Meta在计算、网络、存储、软件方面进行全面优化,提升了集群性能,实现了大型生成式AI任务的运行 [79][81][82] - 蚂蚁集团构建面向绿色计算的基础设施技术体系,在计算、存储、软件、运维方面取得成效,支撑了千亿参数模型的训练和推理 [84][87][88] - 某科技公司对原有基础设施进行升级优化,在计算、存储、运维和多系统层面提升了性能,发布的商用大模型表现出色 [90][91][93] 六、总结与展望 - 大模型落地需求推动推理侧基础设施发展,需要更强大的算力、高效的算法和快速的数据交互能力,以及灵活的配置和定制能力 [94] - 绿色低碳将成为大模型基础设施发展重点,受企业成本控制和政策推动的影响 [95] 附录 高质量大模型基础设施规划建议 - 计算规划根据模型参数量、训练数据量、训练时长和算力利用率计算算力规模和GPU卡数 [98] - AI存储规划根据算力规模确定存储系统总带宽和存储规模 [99][101] - 高速网络规划包括参数面、样本面、业务面和管理面网络,各自独立组网 [102] - 开发软件规划要求训练微调平台和推理平台具备多种能力 [106][108] - 运维规划要求运维平台具备资源配置、监控管理等多种能力 [111]