行业投资评级 - 计算机行业评级为“强于大市”(维持)[1] 核心观点 - 报告将DeepSeek在R1发布后的发展划分为三个主要阶段,认为其通过持续的技术迭代、成本优化以及与国产芯片的深度协同,正推动国产AI产业从“单点突破”迈向“系统协同”[7][34] 阶段一:性能提升 - DeepSeek于2025年3月推出V3-0324,于2025年5月推出R1-0528,这些模型以基础模型DeepSeek-V3-Base为基座,通过后训练实现模型能力提升,弥补了与头部模型的差距[7][11] - 此阶段重点在于提升模型基础性能[7] 阶段二:混合推理架构与国产芯片协同优化 - 2025年8月以后,DeepSeek推出V3.1和V3.1-Terminus,基座模型DeepSeek-V3.1-Base在V3-Base基础上做了大规模外扩训练,Agent能力和思考效率得到较大提升[7][12] - V3.1采用UE8M0 FP8缩放格式训练,针对下一代国产芯片设计,推动了FP8技术的规模化应用,并提升了市场对H20等支持FP8格式芯片的需求[7][27] - UE8M0 FP8格式通过减少数据存储和传输损耗,能最大限度利用硬件计算能力,弥补国产芯片在HBM高速内存带宽方面的不足,实现国产大模型与芯片的协同设计优化[7][28] 阶段三:提效降价与国产适配加速 - 2025年9月发布的V3.2-Exp基于V3.1-Terminus构建,引入新的注意力机制DSA,在保持模型性能稳定的同时,大幅提升了训练推理效率并带来模型降价[7][31] - V3.2-Exp的API调用价格显著下降:输入缓存命中时价格为R1的20%(0.2元/百万Tokens),输入缓存未命中时为R1的50%(2元/百万Tokens),输出价格为R1的19%(3元/百万Tokens)[33] - 模型成本的下降意味着更好的性价比和可推广性,将促进应用端更多功能的落地[7][33] - 在V3.2-Exp发布当天,国产芯片华为昇腾和寒武纪同步宣布完成对其的零日适配,标志着国产AI产业系统协同的又一里程碑[7][34] - DeepSeek开源了TileLang和CUDA两个版本的算子,TileLang作为一种新兴AI编程语言,可以实现对不同硬件平台的支撑,极大改善了国产芯片面临的CUDA生态壁垒问题[7][34][39]
人工智能专题:后R1时代,DeepSeek发展的三大阶段
中原证券·2025-10-14 16:40