报告行业投资评级 - 英伟达-US、博通-US评级为跑赢行业 [4] 报告的核心观点 - 中国企业DeepSeek全面开源创新成果引发市场对生成式AI技术发展与算力硬件需求的讨论,其创新是在中美贸易摩擦背景下AI硬件采购受限的较优解,杰文斯悖论为其“大模型平权”创新行为指明方向,全行业算力资源使用效率提升或创造更大需求 [4] - 看好“大模型平权”背景下,AI硬件/Infra层市场需求蓬勃发展 [7] 根据相关目录分别进行总结 分析:DeepSeek在模型训练过程中引入了哪些创新? 模型创新 - 延续MoE路径,稀疏化架构减少算力消耗,其门控机制激活少数专家模型,减少计算资源消耗,技术创新包括精细化专家分割和共享专家隔离;实证结果显示不同参数规模下DeepSeekMoE模型性能与其他模型相当且计算量更低 [10][11][14] - DeepSeek - V3首创无需辅助损失的负载均衡策略,通过加入偏差项减弱辅助损失对模型表现的影响 [17] - 采用FP8精度训练,节省算力资源,使用混合精度框架平衡训练效率和数值稳定性,创新包括细粒度量化和混合精度;未来低精度训练有望进一步提高训练效率 [18][19][22] - 采用MTP方法,多token预测提高模型训练效率,通过增加训练信号密度和提升硬件资源利用率降低训练成本 [24][28] - 后训练阶段引入GRPO算法,抛弃传统方法,优化算力开销,该算法无需借助价值模型,节约算力和显存资源,且在限制模型更新幅度方面结合了KL散度惩罚与Clipping机制 [29][30][33] 硬件工程化创新 - 专家并行(EP)策略,将MoE架构下的各个“专家”子模型部署到不同设备独立运算,引入无辅助损耗的负载平衡机制,通过特定连接方式和限制传输范围上限优化通信开销 [36][39][40] - 双重流水线(DualPipe)策略,在传统PP策略基础上创新,融合前向和后向计算的通信阶段,降低pipe bubble,虽增加显存开销但因EP策略影响不大 [44][47] - PTX代码加持,PTX是英伟达底层并行计算指令集架构,提升CUDA程序可移植性,方便开发者对硬件调度精准控制,实现多项硬件调度优化方向,许多开源技术或计算库集成了该技术 [48][50][51] 启示:训练硬件技术发展趋势和市场需求的变化方向? 计算架构设计:稀疏化的MLP层可能带来芯片架构设计带来哪些影响? - 未来芯片架构有望变化,如设计定制化架构加速专家运算;采用近内计算设计减少片外内存访问;可能将通信代码固化到处理器设计中 [53] 通信设计:MoE架构下的专家并行对高速通信的需求就一定少吗? - 不能简单比较EP与TP的通信开销,需具体问题具体分析,跨节点间的EP对高速通信需求偏正面;张量/专家并行的选择需根据实际情况平衡 [54][55][60] 训练硬件市场需求变化?国产卡的部署DS训练的可能性? - 对训练硬件需求,DS团队创新利好预训练硬件需求,GRPO算法引入加速后训练端算力需求释放 [64][66] - 国产算力运行DS模型存在缺少FP8精度支持问题,可采用海外卡和国产卡混合训练,但对国产卡显存带宽、容量和浮点算力有要求,模型层面优化和通信库优化很重要,第三方AI Infra企业商业机会凸显 [71] 产业链相关公司一览表 - 报告列出光模块、服务器、交换机、PCB、芯片、液冷、连接器等领域相关公司的财报货币、收盘价、市值、营业收入、净利润、市盈率、市销率等信息 [78]
中金-科技硬件:AI进化论(1):DeepSeek推动“大模型平权”,是训练算力的拐点还是黑洞?