DeepSeek新模型上线!引入DSA新稀疏注意力,还又狙了CUDA一枪
量子位·2025-09-29 18:44
模型发布与技术升级 - DeepSeek最新模型DeepSeek-V3.2-Exp官宣上线,引入新的注意力机制DeepSeek Sparse Attention [1][6] - 新模型基于上周更新的DeepSeek-V3.1-Terminus打造,V3.1-Terminus是V3.1基础上的强化版本,在稳定性、工具调用能力等方面有改进 [6][9] - 开源了更高效的TileLang版本GPU算子,主要算子包括TileLang和CUDA两种版本 [2][13][15] 性能表现与效率提升 - 在各领域公开测评集上,DeepSeek-V3.2-Exp与V3.1-Terminus表现基本持平,部分指标有提升:MMLU-Pro均为85.0,Codeforces-Div1从2046提升至2121,AIME 2025从88.4提升至89.3 [10][11] - 新注意力机制DSA首次实现细粒度注意力机制,能在几乎不影响模型输出效果的前提下,大幅提升长文本和推理效率 [7] - 使用DSA的模型在处理128K长上下文时,推理成本显著低于DeepSeek-V3.1-Terminus,尤其在解码阶段 [11] 产品部署与市场策略 - 官方App、网页端、小程序均已同步更新DeepSeek-V3.2-Exp模型 [3] - API价格实施5折起的大减价,新价格即刻生效 [3][17] - 公司建议社区在进行研究性实验时使用基于TileLang的版本以方便调试和快速迭代 [16] 行业竞争动态 - 除了DeepSeek-V3.2之外,智谱的GLM-4.6也在准备中,GLM-4.5已被标记为"上一代旗舰模型" [19][20]