人工智能专题：后R1时代，DeepSeek发展的三大阶段

行业投资评级 - 计算机行业评级为“强于大市”（维持）[1] 核心观点 - 报告将DeepSeek在R1发布后的发展划分为三个主要阶段，认为其通过持续的技术迭代、成本优化以及与国产芯片的深度协同，正推动国产AI产业从“单点突破”迈向“系统协同”[7][34] 阶段一：性能提升 - DeepSeek于2025年3月推出V3-0324，于2025年5月推出R1-0528，这些模型以基础模型DeepSeek-V3-Base为基座，通过后训练实现模型能力提升，弥补了与头部模型的差距[7][11] - 此阶段重点在于提升模型基础性能[7] 阶段二：混合推理架构与国产芯片协同优化 - 2025年8月以后，DeepSeek推出V3.1和V3.1-Terminus，基座模型DeepSeek-V3.1-Base在V3-Base基础上做了大规模外扩训练，Agent能力和思考效率得到较大提升[7][12] - V3.1采用UE8M0 FP8缩放格式训练，针对下一代国产芯片设计，推动了FP8技术的规模化应用，并提升了市场对H20等支持FP8格式芯片的需求[7][27] - UE8M0 FP8格式通过减少数据存储和传输损耗，能最大限度利用硬件计算能力，弥补国产芯片在HBM高速内存带宽方面的不足，实现国产大模型与芯片的协同设计优化[7][28] 阶段三：提效降价与国产适配加速 - 2025年9月发布的V3.2-Exp基于V3.1-Terminus构建，引入新的注意力机制DSA，在保持模型性能稳定的同时，大幅提升了训练推理效率并带来模型降价[7][31] - V3.2-Exp的API调用价格显著下降：输入缓存命中时价格为R1的20%（0.2元/百万Tokens），输入缓存未命中时为R1的50%（2元/百万Tokens），输出价格为R1的19%（3元/百万Tokens）[33] - 模型成本的下降意味着更好的性价比和可推广性，将促进应用端更多功能的落地[7][33] - 在V3.2-Exp发布当天，国产芯片华为昇腾和寒武纪同步宣布完成对其的零日适配，标志着国产AI产业系统协同的又一里程碑[7][34] - DeepSeek开源了TileLang和CUDA两个版本的算子，TileLang作为一种新兴AI编程语言，可以实现对不同硬件平台的支撑，极大改善了国产芯片面临的CUDA生态壁垒问题[7][34][39]