DeepSeek Sparse Attention - 财报，业绩电话会，研报，新闻

DeepSeek Sparse Attention

搜索文档

36氪· 2025-09-30 09:15

模型发布与核心创新 - DeepSeek于9月30日宣布开源实验版模型DeepSeek-V3.2-Exp，该模型首次引入DeepSeek Sparse Attention稀疏注意力机制，被定义为迈向新一代架构的中间步骤[1] - 新架构通过Lightning Indexer和细粒度token选择机制，将注意力计算复杂度从传统的二次方降至近似线性水平，大幅提升长文本训练和推理效率[36][38] - 模型在几乎不影响输出效果的前提下显著提升效率，采用了继续预训练+后训练的方式，包括专家蒸馏和混合强化学习等技术创新[36][38] 性能表现与基准测试 - 在各领域公开评测集上，DeepSeek-V3.2-Exp与DeepSeek-V3.1-Terminus表现基本一致：MMLU-Pro均为85.0分，GPQA-Diamond从80.7降至79.9，Humanity's Last Exam从21.7降至19.8[5][39] - 部分领域表现有所提升：BrowseComp从38.5提升至40.1，BrowseComp-zh从45.0提升至47.9，Codeforces-Div1从2046提升至2121[5][39] - 模型完成任务使用的token量大幅减少，但在某些测试中因生成推理token更少导致分数略有下降，使用中间检查点可缩小差距[5][38] 成本优化与市场推广 - DeepSeek执行新的价格政策，API调用成本降低50%以上，输出100万token价格从12元降至3元，降幅达75%[3] - 华为云、PPIO派欧云、优刻得等云平台已宣布上线DeepSeek-V3.2-Exp模型，华为、寒武纪、海光信息等AI芯片厂商完成Day 0适配[5][10][13][15][17] - 华为昇腾设备上实现128K长序列输出，首token输出耗时低于2秒，每token输出耗时低于30毫秒的推理速度[10] 实际应用体验反馈 - 用户测试显示DeepSeek-V3.2-Exp在10万token代码库上速度提升明显，但编写代码更为简短，有时影响功能实现[19][26][27] - 在信息检索任务中生成结果更为简短用词朴素，但推荐内容不符合新手友好要求，存在能力让步现象[29][31] - 用户反馈指出模型在工作记忆、计算精度稳定性方面存在短板，有偷懒倾向和陷入死循环的可能[32][34] 技术影响与行业意义 - 该模型作为实验性版本，主要贡献在于理论层面展示长文本处理中兼顾性能与效率的新路径，DSA机制处于原型期但实用性显著[36][38][44] - 产业界与开发者圈反响热烈，寒武纪在DeepSeek官宣后4分钟即宣布完成适配，可能意味着厂商在模型发布前已启动适配工作[15][21] - 训练曲线与前代模型保持相似稳定性，表明新架构在收敛性上没有额外风险，为未来技术优化奠定基础[42][44]

Seek .(US:SKLTY)

Artificial Intelligence

DeepSeek Sparse Attention

Artificial Intelligence

DeepSeek-V3.2-Exp

DeepSeek-V3.1-Terminus

Artificial Intelligence

DeepSeek Sparse Attention

Artificial Intelligence

DeepSeek-V3.2-Exp

DeepSeek-V3.1-Terminus

DeepSeek-V3.2-Exp 发布，训练推理提效，API成本降50%以上

新浪科技· 2025-09-29 18:27

模型发布与更新 - 公司发布DeepSeek-V3-2-Exp模型，这是一个实验性版本，作为迈向新一代架构的中间步骤 [1] - 新模型在V3-1-Terminus基础上引入DeepSeek Sparse Attention稀疏注意力机制，针对长文本训练和推理效率进行探索性优化和验证 [1] - 官方App、网页端、小程序均已同步更新为DeepSeek-V3-2-Exp模型 [1] 商业策略与定价 - API大幅度降价，在新的价格政策下，开发者调用DeepSeek API的成本将降低50%以上 [1] - DeepSeek-V3-2-Exp模型现已在Huggingface与魔搭开源 [1] 模型性能表现 - 在各领域公开评测集上，DeepSeek-V3-2-Exp的表现与V3-1-Terminus基本持平 [1]

Seek .(US:SKLTY)

DeepSeek Sparse Attention

Artificial Intelligence

DeepSeek-V3.2-Exp

DeepSeek API

DeepSeek Sparse Attention

Artificial Intelligence

DeepSeek-V3.2-Exp

DeepSeek API