报告行业投资评级 未提及 报告核心观点 大模型时代已开启,其带来效果飞跃和通用性提升,爆款应用拉动训练需求,但超大模型训练对基础设施有高要求,需从AI框架解决技术挑战,采用多种并行策略,同时软硬件结合联合优化,大模型发展也推动基础设施不断演进 [5][8][11][19] 各部分总结 GPT - 3开启大模型时代 - 大模型带来质的效果飞跃,如GPT - 3的1750亿模型用32条样本即可达BERT效果,提升20% - 40% [5][7] - 大模型使AI通用性显著提升,超大规模模型具备处理各种新任务的通用能力,如数学计算、阅读理解等 [8][9] - 爆款应用如AIGC文生图、ChatGPT拉动大模型训练需求,训练需足够数据与算力,模型参数规模不断增大 [11][12][13] 超大模型训练对基础设施的需求 - 面向大模型有从框架到集群的全栈基础设施全景图,包括AI框架、加速库、资源管理层、硬件资源等 [17] - 大模型参数量与计算量激增带来算力墙和存储墙问题,需分布式加速和更多存储空间,对模型和数据进行切分 [20] - 算力墙通过数据并行解决,对数据集切分,不同卡模型相同数据不同,需梯度同步,目前主要采用同步更新策略 [21][22] - 存储墙可通过流水线并行、张量并行、分组参数切片解决,流水线并行可调整mini - batch执行顺序减少气泡,张量并行将单层操作切分到多卡,分组参数切片可节省显存 [23][28][34] - 大模型加速可通过减少计算量实现,如条件计算、混合专家模式,飞桨4D混合并行训练采用多种并行策略 [37][40][44] - 大模型训练对算力和通信有不同需求,单机硬件选型要算力高、机内多卡通信能力强,集群网络设计采用8导轨优化的三层CLOS架构 [46][47][50] 软硬件结合的联合优化 - 基于静态图的多后端加速架构包括图接入、后端抽象、图优化、图转换、多后端、算子库等组件 [55][56] - 动态图与静态图各有优劣,可通过基于Python AST的静态转换、Tracing & Symbolic Tracing融合,但Python语言灵活性使完整转换困难,还可采用基于AST的代码替换、TorchDynamo等方案 [58][59][61] - 后端加速可进行计算执行时间分析,通过算子融合和算子实现优化加速计算,算子融合可去掉kernel launch时间等,算子实现优化有手写算子、半自动化模板、基于搜索的优化三种方案 [69][71][76] - 通信优化可解决交换机哈希冲突、All2All加速、使能Infiniband等问题,还可实现端到端自动化任务切分与放置,基于cost model搜索优化 [80][85][90] 大模型发展推动基础设施演进 - 大模型演进趋势是参数规模持续增加、算力需求增长、多模态训练和异构资源使用 [106][107] - 集群与业务演进面临多组异构集群和多类用户作业的放置问题,可基于统一视图的端到端优化,智能化自动选择最优并行策略 [109][111][112] - 百度百舸·AI异构计算平台2.0适用于多种业务场景,具备AI容器、调度、加速、存储、计算等功能 [115][116]
计算机行业:大模型时代的异构计算平台
百度网讯·2025-01-24 18:18