Workflow
DeepSeek Sparse Attention(DSA)
icon
搜索文档
DeepSeek最新模型上线,全新注意力机制基于北大ACL最佳论文
36氪· 2025-09-30 07:39
模型发布与技术升级 - DeepSeek发布最新实验性模型DeepSeek-V3.2-Exp,该模型基于DeepSeek-V3.1-Terminus开发 [1][3] - 模型首次引入以DeepSeek品牌命名的关键技术“DeepSeek稀疏注意力”(DSA),这是首个用DeepSeek品牌命名的关键技术 [3][5] - DSA是此前与北大合作ACL 2025最佳论文中原生稀疏注意力(NSA)的改进版本 [3] 技术创新与效率提升 - DSA实现了细粒度稀疏注意力机制,通过“闪电索引器”高效判断哪些历史Token最重要,仅对少量关键Token(如2048个)进行精细计算 [5][8] - 新技术使核心注意力计算复杂度从O(L²)大幅降低至O(Lk),其中k为远小于L的固定值,在处理长文本时带来巨大效率提升 [8] - 训练过程包含“密集预热”初始化闪电索引器、“稀疏训练”适应新稀疏模式,以及沿用专家蒸馏和混合强化学习的后训练流程 [10] 性能表现评估 - 在严格对齐的训练设置下,DeepSeek-V3.2-Exp与V3.1-Terminus相比未出现实质性性能下降 [12][14] - 具体基准测试显示:MMLU-Pro保持85.0分,GPQA-Diamond从80.7略降至79.9,Codeforces-Div1从2046提升至2121,AIME 2025从88.4提升至89.3 [15] - 实际部署推理测试中端到端加速效果和成本节约非常显著,实现“性能不降、成本骤减”的特性 [14][18] 商业应用与定价策略 - 得益于新模型服务成本大幅降低,官方API价格同步下调50%以上 [1][19] - 新价格政策即刻生效,当前API模型版本为DeepSeek-V3.2-Exp,访问方式保持不变 [19] - 此次技术突破为大模型突破长文本瓶颈指明了充满希望的工程路径 [18]