模型发布概览 - DeepSeek在ChatGPT发布三周年之际推出两个新模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale [1] - DeepSeek-V3.2聚焦平衡实用,适用于日常问答、通用Agent任务和真实应用场景下的工具调用 [1] - DeepSeek-V3.2-Speciale主打极致推理,是DeepSeek-V3.2的长思考增强版 [3][12] 模型性能表现 - DeepSeek-V3.2推理能力达GPT-5水平,略低于Gemini-3.0-Pro [2] - DeepSeek-V3.2-Speciale推理基准性能媲美Gemini-3.0-Pro [3] - 在数学和编程竞赛中表现优异:IMO 2025、CMO 2025、ICPC World Finals 2025、IOI 2025金牌,其中ICPC达到人类选手第二、IOI人类选手第十名水平 [4][5] - 在Agent评测中达到当前开源模型最高水平 [8] 技术架构创新 - 引入DSA高效稀疏注意力机制,将计算复杂度从O(L²)降低到O(L·k) [20][21][22] - 支持FP8精度,适配MLA架构,训练友好 [24] - DSA包含闪电索引器和细粒度token选择机制两个组件 [26][27] - 采用ReLU激活函数提升吞吐量 [28] 训练策略优化 - 采用两阶段训练策略:第一阶段Dense Warm-up训练1000步处理21亿tokens,第二阶段稀疏机制训练15000步处理9437亿tokens [29][30][31][32] - 强化学习训练计算预算超过预训练成本的10% [36][37] - 在GRPO算法基础上改进无偏KL估计和离线序列掩码策略 [40][41][43] - 针对MoE模型设计Keep Routing操作确保参数优化一致性 [45] 成本效益提升 - 在128k长度序列上,推理成本比V3.1-Terminus降低数倍 [33] - H800集群测试显示,128K序列长度下预填充阶段成本从0.7美元/百万token降至0.2美元,解码阶段从2.4美元降至0.8美元 [34] Agent能力突破 - 实现推理与工具使用能力的结合 [49] - 设计新的思考上下文管理机制,优化token使用效率 [52][53] - 开发自动环境合成pipeline,生成1827个任务导向环境和85000个复杂提示 [57] - 在SWE-Verified上达到73.1%解决率,Terminal Bench 2.0准确率46.4%,大幅超越现有开源模型 [63] 基准测试对比 - 在T2-Bench ToolUse得分80.3,接近Claude-4.5-Sonnet的84.7和Gemini-3.0-Pro的85.4 [12] - MCP-Universe成功率45.9%,Tool-Decathlon通过率35.2% [12][64] - 数学竞赛表现:AIME 2025达93.1%,HMMT Feb 2025达92.5%,IMOAnswerBench达78.3% [17] 产品部署现状 - DeepSeek的App和Web端已更新为正式版DeepSeek-V3.2 [17] - Speciale版本目前仅供临时API使用,不支持工具调用 [15][17] - Speciale模型在高度复杂任务上大幅优于标准版本,但消耗Tokens更多,成本更高 [16]
好家伙!DeepSeek 一口气连发 2 个新模型
程序员的那些事·2025-12-02 21:49