DeepSeek稀疏注意力（DSA） - 财报，业绩电话会，研报，新闻

DeepSeek稀疏注意力（DSA）

搜索文档

机器之心· 2025-12-08 12:27

DeepSeek模型系列技术演进 - 公司于2024年12月发布DeepSeek V3基础模型，随后推出基于相同架构的专用推理模型DeepSeek R1，使其成为最受欢迎的开放权重模型之一，成为OpenAI、Google、xAI和Anthropic等公司专有模型的有力替代方案[11] - 从DeepSeek V3到V3.2的演进过程中，公司模型策略从专用推理模型转向混合模型，V3.1和V3.2均为兼具通用聊天和推理能力的混合模型，而R1可能更多是作为研究项目或测试平台[25] - 公司于2025年9月发布实验性模型DeepSeek V3.2-Exp，旨在为更大规模的发布准备生态系统和推理基础设施，该模型引入了非标准的稀疏注意力变体，需要定制代码[17][18] - 2025年12月1日，公司发布新旗舰模型DeepSeek V3.2和DeepSeek V3.2-Speciale，与当前专有旗舰模型相比表现非常出色[5][103] 核心架构创新：注意力机制与效率提升 - DeepSeek V3基础模型采用了混合专家模型和多头潜在注意力架构，MLA通过在将键和值张量存储到KV缓存前将其压缩到低维空间来节省内存，虽然增加了一次额外的矩阵乘法，但显著减少了内存使用[29][31][32] - DeepSeek V3.2-Exp及V3.2的主要架构创新是DeepSeek稀疏注意力，该机制由Lightning Indexer和Token选择器组成，基于学习到的相关性分数选择性地关注部分过去的Token，而非所有Token或固定局部窗口[49][50][54][58][59] - DSA将注意力机制的计算复杂度从二次的O(L²)降低到了线性的O(Lk)，其中L是序列长度，k是选定Token的数量，在减少性能衰减的同时实现了效率提升[66][67][68] - DeepSeek V3.2使用了与DeepSeek V3.2-Exp完全相同的架构，集成了MLA和DSA机制，主要动机是提高整体模型性能的同时，将计算效率视为巨大驱动因素[107][110] 训练方法演进：从RLVR到自我验证 - DeepSeek R1专注于“带可验证奖励的强化学习”方法以提高推理能力，其核心思想是让模型从可以进行符号化或编程验证的响应中学习，例如数学和代码[37][38] - RLVR流程使用了GRPO算法，这是“近端策略优化”算法的一个简化变体，GRPO取消了评论家模型，而带GRPO的RLVR进一步移除了奖励模型，转而依赖来自符号工具的可验证奖励[40][42] - 为改善常规RLVR的缺点，公司在DeepSeekMath V2中引入了自我验证与自我修正技术，开发了基于LLM的验证器和元验证器来对证明生成器的输出进行评分和检查，使验证器证明分析的平均质量得分从0.85提高到了0.96[76][77][83][86][89][90] - 在推理期间，公司使用单一模型同时执行证明生成和验证，这比运行第二个LLM进行证明验证增加了更少的复杂性和计算需求，通过多达8次的自我修正迭代，模型的准确性得到提高且尚未饱和[98][99][102] DeepSeek V3.2的具体训练改进 - DeepSeek V3.2采用了类似于DeepSeek R1的RLVR程序，但更新了奖励机制，对于推理和智能体任务采用基于规则的结果奖励、长度惩罚和语言一致性奖励，对于通用任务则采用生成式奖励模型[115][116] - 对于数学领域，公司整合了来自DeepSeekMath-V2的数据集和奖励方法[117] - 在GRPO算法本身，公司进行了一系列稳定性更新，包括：零梯度信号过滤、主动采样、Token级损失、无KL损失、更高裁剪阈值、截断重要性采样、无标准差归一化、特定领域的KL强度、无偏KL估计、异策略序列掩码、保留MoE模型的路由、保留top-p/top-k的采样掩码以及保留原始GRPO优势归一化[119][120][122] - DeepSeek V3.2-Speciale是V3.2的扩展思维变体，其在RL阶段仅在推理数据上进行训练，并减少了长度惩罚以允许模型输出更长的响应，这种推理扩展形式以生成长度增加为代价获得更好的结果[123][124] 模型性能表现 - DeepSeek V3.2在多项基准测试中与专有旗舰模型相比表现非常出色，在数学基准测试中获得了金牌级的表现，同时在训练时也考虑到了工具的使用，在其他任务上也表现良好[103][107] - 扩展思维变体DeepSeek V3.2-Speciale在多个基准测试中实现了更高的准确性，例如在AIME 2025基准上达到96.0，在HMMT Feb 2025基准上达到99.2，但同时也生成了更多的Token[127]