Workflow
DeepSeek V3.2 发布:长文本能力新突破,API 价格砍半
Founder Park·2025-09-29 18:55

模型发布与技术升级 - 公司正式推出实验性模型DeepSeek-V3.2-Exp,该模型在V3.1-Terminus基础上引入了革命性的DeepSeek Sparse Attention技术[2] - 新技术DSA首次实现细粒度稀疏注意力机制,旨在几乎不影响模型输出效果的前提下大幅提升长文本训练和推理效率[6] - 官方App、网页端、小程序均已同步更新为DeepSeek-V3.2-Exp模型[3][14] 性能表现与基准测试 - 在严格对齐V3.1-Terminus训练设置后,V3.2-Exp在各领域公开评测集上表现基本持平[10] - 具体基准测试结果显示:MMLU-Pro保持85.0分,GPQA-Diamond从80.7降至79.9,Codeforces-Div1从2046分提升至2121分,AIME 2025从88.4提升至89.3分[11] - 模型已在Huggingface与魔搭平台开源,论文同步公开[11] 定价策略与成本优化 - API服务价格下调超过50%,成本降低直接惠及开发者[4][12] - 价格下调得益于DSA技术带来的效率提升[7] - 限时保留V3.1模型API访问通道至2025年10月15日,调用价格与新版V3.2-Exp相同[15][16] 用户支持与测试安排 - 为方便用户进行新旧版本对比,官方限时保留V3.1模型的API访问通道[15] - 用户可通过修改base_url为特定地址访问V3.1-Terminus模型[16] - 公司邀请用户参与实验性版本测试并提供反馈[15][18]