Workflow
英博数科观察:DeepSeek V3.1 发布,AI 工程化的关键一跃
Seek .Seek .(US:SKLTY) 中金在线·2025-08-25 14:54

核心观点 - DeepSeek V3.1版本以工程实用主义为核心进行升级 在不牺牲主流任务质量的前提下 实现工具调用 思维组织与系统集成更稳更快更省[1][3] - 此次迭代标志着大模型发展从拼参数走向拼工程 从追求能力走向追求可用性 推动AI在真实场景中发挥更大价值[14] 技术升级 - 思维模式支持更完整 tokenizer增加4个与推理/检索相关的特殊token 配合后训练策略约束 使思考-检索-工具-回答链条更可控[4] - 工具与代理能力更稳 在函数调用 检索增强 智能代理等场景中调用意图更明确 参数更规整 失败重试更克制[4] - Think变体效率提升 DeepSeek-V3.1-Think回答质量对齐DeepSeek-R1-0528 但响应更快 吞吐与时延表现更友好[4] - 长上下文训练数据扩充 32K扩充阶段数据增长10倍到630B tokens 128K扩充阶段数据增长3.3倍到209B tokens[5] - 采用UE8M0 FP8缩放数据格式训练 兼顾可移植性与微尺度数据流兼容 推理时仍采用FP32格式[4] - 新增Anthropic API协议层兼容与适配 便于在现有中台与工具链中快速替换或并行评估[4] 格式兼容性 - 训练阶段兼容Microscaling格式 可能为兼容国产硬件提供更好量化性能[6] - 缩放块大小为128*128 能被Microscaling格式块大小整除 兼容MXFP8格式[7] - 模型后缀weight_scale_inv层的尺度数据值均为2的整数幂或乘系数后为2的整数幂 可表达为E8M0格式 而DeepSeek-V3-0324无法精确表达[7] 性能评估 - 在24点问题测试中 DeepSeek-V3.1非思考模式减少运行长度 思考模式运行较多token且出现中英混杂 而DeepSeek-R1能以较快速度得到正确结果[8] - 使用AIME2025题目评估思考效率 在DeepSeek-R1需思考少于8k tokens的六个题目上 DeepSeek-V3.1(think)平均节省约15% token[9] - 在DeepSeek-R1需思考9k13k的三个题目上 DeepSeek-V3.1(think)额外思考50%+长度完成题目[9] - 在DeepSeek-R1未能在16k tokens限制做出的五个题目中 有一个题目DeepSeek-V3.1(think)在15k tokens完成[9] - 猜测在较短(<8k)思维长度上 DeepSeek-V3.1具有更普遍的思维效率提升 但在较长(8k16k)思维长度上可能存在思维效率下降[10] 部署优化 - 将R1思维能力合并到V3.1中 通过模版开关同时提供no-think和think模式 使模型部署工程更简化[11] - 在V3/R1时代需分别部署两套设施 分别维护和扩缩容 每个集群保留buffer资源[12] - 部署一套V3.1模型后 小吞吐一体机方案可缩减50%成本 大吞吐场景只需运维一套集群和保留一份buffer资源 运行成本和运维成本均降低[13]