DeepSeek Sparse Attention
搜索文档
DeepSeek新模型开源,新架构亮了,国产AI芯片集体狂欢
36氪· 2025-09-30 09:15
模型发布与核心创新 - DeepSeek于9月30日宣布开源实验版模型DeepSeek-V3.2-Exp,该模型首次引入DeepSeek Sparse Attention稀疏注意力机制,被定义为迈向新一代架构的中间步骤[1] - 新架构通过Lightning Indexer和细粒度token选择机制,将注意力计算复杂度从传统的二次方降至近似线性水平,大幅提升长文本训练和推理效率[36][38] - 模型在几乎不影响输出效果的前提下显著提升效率,采用了继续预训练+后训练的方式,包括专家蒸馏和混合强化学习等技术创新[36][38] 性能表现与基准测试 - 在各领域公开评测集上,DeepSeek-V3.2-Exp与DeepSeek-V3.1-Terminus表现基本一致:MMLU-Pro均为85.0分,GPQA-Diamond从80.7降至79.9,Humanity's Last Exam从21.7降至19.8[5][39] - 部分领域表现有所提升:BrowseComp从38.5提升至40.1,BrowseComp-zh从45.0提升至47.9,Codeforces-Div1从2046提升至2121[5][39] - 模型完成任务使用的token量大幅减少,但在某些测试中因生成推理token更少导致分数略有下降,使用中间检查点可缩小差距[5][38] 成本优化与市场推广 - DeepSeek执行新的价格政策,API调用成本降低50%以上,输出100万token价格从12元降至3元,降幅达75%[3] - 华为云、PPIO派欧云、优刻得等云平台已宣布上线DeepSeek-V3.2-Exp模型,华为、寒武纪、海光信息等AI芯片厂商完成Day 0适配[5][10][13][15][17] - 华为昇腾设备上实现128K长序列输出,首token输出耗时低于2秒,每token输出耗时低于30毫秒的推理速度[10] 实际应用体验反馈 - 用户测试显示DeepSeek-V3.2-Exp在10万token代码库上速度提升明显,但编写代码更为简短,有时影响功能实现[19][26][27] - 在信息检索任务中生成结果更为简短用词朴素,但推荐内容不符合新手友好要求,存在能力让步现象[29][31] - 用户反馈指出模型在工作记忆、计算精度稳定性方面存在短板,有偷懒倾向和陷入死循环的可能[32][34] 技术影响与行业意义 - 该模型作为实验性版本,主要贡献在于理论层面展示长文本处理中兼顾性能与效率的新路径,DSA机制处于原型期但实用性显著[36][38][44] - 产业界与开发者圈反响热烈,寒武纪在DeepSeek官宣后4分钟即宣布完成适配,可能意味着厂商在模型发布前已启动适配工作[15][21] - 训练曲线与前代模型保持相似稳定性,表明新架构在收敛性上没有额外风险,为未来技术优化奠定基础[42][44]
DeepSeek-V3.2-Exp 发布,训练推理提效,API成本降50%以上
新浪科技· 2025-09-29 18:27
模型发布与更新 - 公司发布DeepSeek-V3-2-Exp模型,这是一个实验性版本,作为迈向新一代架构的中间步骤 [1] - 新模型在V3-1-Terminus基础上引入DeepSeek Sparse Attention稀疏注意力机制,针对长文本训练和推理效率进行探索性优化和验证 [1] - 官方App、网页端、小程序均已同步更新为DeepSeek-V3-2-Exp模型 [1] 商业策略与定价 - API大幅度降价,在新的价格政策下,开发者调用DeepSeek API的成本将降低50%以上 [1] - DeepSeek-V3-2-Exp模型现已在Huggingface与魔搭开源 [1] 模型性能表现 - 在各领域公开评测集上,DeepSeek-V3-2-Exp的表现与V3-1-Terminus基本持平 [1]