Workflow
计算机:华为系列深度之十八暨GenAI系列深度之四十九-算力新变局:训练范式、架构创新、工程优化
申万宏源·2025-02-08 09:50

报告行业投资评级 - 看好 [2] 报告的核心观点 - 训练范式、架构创新、工程优化三大因素共同推动模型成本下降 [5] - 开源+蒸馏趋势下AI模型智能平权开启,杰文斯悖论生效,算力总需求仍可能增加,“算法优化—成本下降—渗透率提升—强化训推投入”闭环逻辑持续 [5] - 宏观维度,海内外大厂加码资本开支趋势延续,本轮预期差在国产算力性能和生态突破,兼容CUDA路线海光信息、以及自成体系路线华为昇腾为国产厂商中进展最快,用户使用体验佳,新产品有望更快放量 [5] 根据相关目录分别进行总结 算法:训练范式+模型架构创新 训练范式:后训练+推理Scaling law崛起 - AI发展遵循预训练、后训练、推理三个Scaling Law,后训练和推理阶段Scaling law重要性正在提升,训练阶段算力需求迎来后训练RL和测试时计算的新增量 [13][15][17] 模型架构:线性/稀疏注意力机制、MoE等流行 - 模型架构影响预训练阶段算力消耗,主流技术包括MoE、线性注意力机制等 [19] - MoE混合专家模型可减少算力消耗,但可能加大显存和通信压力,DeepseekMoE使用动态路由和无辅助损失的负载平衡技术实现算力使用效率最大化 [20][23][24] - 改进注意力机制可降低计算复杂度,减少KV - Cache以实现更低推理成本,常用技术手段包括改进注意力机制和模型量化 [25][28][29] 算力:工程优化降低训推成本 - Infra优化可降低卡时成本,提升集群算力利用率和可用度可节约成本,要从单机效率和集群线性度两方面提升集群算力利用率 [30][32] - Deepseek v3是Infra工程优化代表,使用FP8混合精度训练、DualPipe算法等技术,训练MFU较半年前的DeepSeek V2提升61%,节约约1200万人民币成本 [37][43][48] 开源等普惠趋势下,算力总量需求仍然乐观 海内外大厂加码资本开支 - 海内外大模型及应用厂商资本开支加速,国内厂商增速高于海外,字节2025年算力资本开支有望向Meta看齐,小米有望入局AI大模型 [56][59][63] 预期差:国产性能与生态的突破 - CUDA壁垒正在弱化,国产AI芯片追赶窗口期已至,华为昇腾、寒武纪等部分产品硬件算力指标接近英伟达H100 [67] - 国产厂商软件生态替代CUDA有较大突破,分为兼容CUDA(如海光信息)和全栈自有(如华为昇腾)两大路径 [71] 建议关注 - 国产AI芯片相关服务器:浪潮信息,神州数码,紫光股份 [87] - 国产AI芯片:海光信息,寒武纪 - U [87] - 国产服务器生态相关:软通动力,中国软件国际(港股) [87] - 算力产业链供应商:泰嘉股份,澜起科技,中芯国际,盛科通信 - U,烽火通信,中兴通讯 [84]