Sparse Attention Mechanism

DeepSeek-R1-0528

DeepSeek-R1

DeepSeek-V3.2-Exp来了，API价格再度大幅下调

DeepSeek-R1-0528

DeepSeek-R1

凤凰网· 2025-09-29 22:03

新产品发布与性能 - 公司于2025年9月29日发布DeepSeek-V3.2-Exp模型，该模型在V3.1-Terminus基础上引入了创新的DeepSeek Sparse Attention稀疏注意力机制 [2] - 新机制旨在优化长文本的训练和推理效率，且能在几乎不影响模型输出质量的前提下大幅提高长文本处理效率 [2] - 在各大公开评测集上，V3.2-Exp模型表现与V3.1-Terminus几乎持平，例如MMLU-Pro得分均为85.0，GPQA-Diamond得分分别为80.7和79.9 [3] - 部分基准测试显示性能提升，如Codeforces-Div1得分从2046提升至2121，AIME 2025得分从88.4提升至89.3 [3] 成本与可及性 - 公司宣布API价格大幅度下调，在新的价格政策下，开发者调用DeepSeek API的成本将降低50%以上 [2][3] - V3.2-Exp版本已同步更新至官方App、网页端及小程序，提升了产品的可及性 [3] - 公司表示V3.2-Exp模型已在Huggingface与魔搭平台开源，用户可直接访问并进行二次开发 [5]

Seek .(US:SKLTY)

DeepSeek API

国庆前放大招！DeepSeek-V3.2-Exp发布并开源，API成本将降低50%以上

DeepSeek API

华尔街见闻· 2025-09-29 19:12

模型发布与开源 - DeepSeek-V3.2-Exp模型于9月29日在Hugging Face平台正式发布并开源[1] - 该模型是迈向下一代架构的重要中间步骤，在V3.1-Terminus基础上引入自研的DeepSeek Sparse Attention稀疏注意力机制[1] - 华为云已完成对该模型的适配工作，最大可支持160K长序列上下文长度[2] 技术创新与效率提升 - DeepSeek Sparse Attention首次实现细粒度稀疏注意力机制，在几乎不影响模型输出效果的前提下大幅提升长文本场景下的训练和推理效率[3] - 新架构能够降低计算资源消耗并提升模型推理效率，是对长文本效率的探索性优化与验证[1] - 为支持社区研究，公司还开源了新模型研究中设计和实现的GPU算子，包括TileLang和CUDA两种版本[10] 性能表现评估 - 模型训练设置与前代V3.1-Terminus严格对齐，在各大公开评测集上的表现与V3.1-Terminus基本持平[5] - 具体性能指标：MMLU-Pro保持85.0分，GPQA-Diamond从80.7分略降至79.9分，Codeforces-Div1从2046分提升至2121分[7] - 在多个基准测试中表现稳定，AIME 2025从88.4分提升至89.3分，BrowseComp-zh从45.0分提升至47.9分[7] 商业化与市场策略 - 官方API价格大幅下调超过50%，新价格已即刻生效[7] - 目前官方App、网页端和小程序均已同步更新至DeepSeek-V3.2-Exp版本[7] - 为便于开发者进行效果对比，公司为V3.1-Terminus版本临时保留API访问接口，调用价格与V3.2-Exp保持一致，该接口将保留至2025年10月15日[9]

Long Text Training and Inference

DeepSeek Sparse Attention (DSA)

Long Text Training and Inference