DeepSeek Sparse Attention (DSA)
搜索文档
国庆前放大招!DeepSeek-V3.2-Exp发布并开源,API成本将降低50%以上
华尔街见闻· 2025-09-29 19:12
模型发布与开源 - DeepSeek-V3.2-Exp模型于9月29日在Hugging Face平台正式发布并开源[1] - 该模型是迈向下一代架构的重要中间步骤,在V3.1-Terminus基础上引入自研的DeepSeek Sparse Attention稀疏注意力机制[1] - 华为云已完成对该模型的适配工作,最大可支持160K长序列上下文长度[2] 技术创新与效率提升 - DeepSeek Sparse Attention首次实现细粒度稀疏注意力机制,在几乎不影响模型输出效果的前提下大幅提升长文本场景下的训练和推理效率[3] - 新架构能够降低计算资源消耗并提升模型推理效率,是对长文本效率的探索性优化与验证[1] - 为支持社区研究,公司还开源了新模型研究中设计和实现的GPU算子,包括TileLang和CUDA两种版本[10] 性能表现评估 - 模型训练设置与前代V3.1-Terminus严格对齐,在各大公开评测集上的表现与V3.1-Terminus基本持平[5] - 具体性能指标:MMLU-Pro保持85.0分,GPQA-Diamond从80.7分略降至79.9分,Codeforces-Div1从2046分提升至2121分[7] - 在多个基准测试中表现稳定,AIME 2025从88.4分提升至89.3分,BrowseComp-zh从45.0分提升至47.9分[7] 商业化与市场策略 - 官方API价格大幅下调超过50%,新价格已即刻生效[7] - 目前官方App、网页端和小程序均已同步更新至DeepSeek-V3.2-Exp版本[7] - 为便于开发者进行效果对比,公司为V3.1-Terminus版本临时保留API访问接口,调用价格与V3.2-Exp保持一致,该接口将保留至2025年10月15日[9]
刚刚,DeepSeek开源V3.2-Exp,公开新稀疏注意力机制DSA
机器之心· 2025-09-29 18:29
DeepSeek-V3.2-Exp 开源发布 - DeepSeek 在假期前发布实验版本 DeepSeek-V3.2-Exp 并开源 [1][3] - 模型参数量为 685B [3] - 同步公开论文及稀疏注意力机制技术细节 [3][5] 稀疏注意力机制架构创新 - DeepSeek 稀疏注意力机制(DSA)是 3.2 版本唯一架构改进 [6] - DSA 实现细粒度稀疏注意力 显著提升长上下文训练和推理效率 [9] - 在 MLA 架构下实例化 DSA [8] - 该机制代表对更高效 Transformer 架构的持续研究 特别注重扩展文本序列处理的计算效率 [10] 模型性能基准测试 - DeepSeek-V3.2-Exp 训练配置与 V3.1-Terminus 严格对比 [9] - 在公开基准测试中表现相当 例如 MMLU-Pro 均保持 85.0 [9][11] - 部分领域存在微小波动 如 GPQA-Diamond 从 80.7 降至 79.9 而 AIME 2025 从 88.4 升至 89.3 [11] - Codeforces 评分从 2046 提升至 2121 [11] - Agentic Tool Use 方面 BrowseComp-zh 从 45.0 升至 47.9 [11] 行业竞争动态 - 智谱 GLM-4.6 即将发布 GLM-4.5 被标识为上一代旗舰模型 [12]