Workflow
国庆前放大招!DeepSeek-V3.2-Exp发布并开源,API成本将降低50%以上
华尔街见闻·2025-09-29 19:12

模型发布与开源 - DeepSeek-V3.2-Exp模型于9月29日在Hugging Face平台正式发布并开源[1] - 该模型是迈向下一代架构的重要中间步骤,在V3.1-Terminus基础上引入自研的DeepSeek Sparse Attention稀疏注意力机制[1] - 华为云已完成对该模型的适配工作,最大可支持160K长序列上下文长度[2] 技术创新与效率提升 - DeepSeek Sparse Attention首次实现细粒度稀疏注意力机制,在几乎不影响模型输出效果的前提下大幅提升长文本场景下的训练和推理效率[3] - 新架构能够降低计算资源消耗并提升模型推理效率,是对长文本效率的探索性优化与验证[1] - 为支持社区研究,公司还开源了新模型研究中设计和实现的GPU算子,包括TileLang和CUDA两种版本[10] 性能表现评估 - 模型训练设置与前代V3.1-Terminus严格对齐,在各大公开评测集上的表现与V3.1-Terminus基本持平[5] - 具体性能指标:MMLU-Pro保持85.0分,GPQA-Diamond从80.7分略降至79.9分,Codeforces-Div1从2046分提升至2121分[7] - 在多个基准测试中表现稳定,AIME 2025从88.4分提升至89.3分,BrowseComp-zh从45.0分提升至47.9分[7] 商业化与市场策略 - 官方API价格大幅下调超过50%,新价格已即刻生效[7] - 目前官方App、网页端和小程序均已同步更新至DeepSeek-V3.2-Exp版本[7] - 为便于开发者进行效果对比,公司为V3.1-Terminus版本临时保留API访问接口,调用价格与V3.2-Exp保持一致,该接口将保留至2025年10月15日[9]