Workflow
DeepSeek-V3.1震撼发布,全球开源编程登顶,R1/V3首度合体,训练量暴增10倍
Seek .Seek .(US:SKLTY) 36氪·2025-08-21 20:04

模型技术特点 - 采用混合推理模式 一个模型同时支持思考与非思考两种模式并可自主切换[1] - 总参数量达671B 激活参数为37B 支持128K上下文长度[6][14] - 通过两阶段长上下文扩展策略构建 32K扩展阶段训练规模增加10倍达6300亿Token 128K扩展阶段增加3.3倍达2090亿Token[13] - 使用UE8M0 FP8缩放数据格式训练 确保与微尺度数据格式兼容性[14] - 基于DeepSeek-V3.1-Base通过后训练优化完成 而Base版本基于V3模型训练并进行了8400亿token持续预训练[6][12] 性能表现 - 在SWE-bench测试中获得66.0分 远超V3-0324的45.4分和R1-0528的44.6分[3][4] - 在SWE-bench Multilingual测试中获得54.5分 较V3-0324的29.3分提升86%[4] - Terminal-Bench测试得分31.3分 较V3-0324的13.3分提升135%[4] - Humanity's Last Exam测试获得29.8分 较R1的24.8分提升20%[20] - 在MMLU-Redux测试中 思考模式达93.7分 非思考模式达91.8分 均超过V3-0324的90.5分[15] - GPQA-Diamond测试思考模式获80.1分 接近R1-0528的81.0分[15] - AIME 2024数学测试思考模式获93.1分 超过R1-0528的91.4分[16] - LiveCodeBench测试思考模式获74.8分 超过R1-0528的73.3分[19] - Aider-Polyglot编码测试思考模式获76.3%准确率 超过Claude 4 Opus和Gemini 2.5 Pro[16] 效率提升 - 思考模式输出token减少20%-50% 与R1-0528性能持平但效率显著提升[6] - 推理速度较DeepSeek-R1-0528更快[3] - 在第三方Artificial Analysis基准测试中表现仅次于GPT-OSS[23] 应用能力 - 具备强大智能体能力 支持工具使用和多步骤任务处理[3] - 支持多种Code Agent框架 开发者可自主搭建智能体[16] - 支持Search Agent功能 可通过多轮工具调用流程完成复杂搜索任务[19][20] - 在BrowseComp测试中获30.0分 较R1的8.9分提升237%[20] - 在BrowseComp_zh中文搜索测试中获49.2分 较R1的35.7分提升38%[20] 行业地位 - 成为编程开源领域第一 编码实力超越Claude 4 Opus[1][16] - 是公司对OpenAI GPT-OSS的最强回应[8] - 开启智能体新时代 是迈向智能体时代的第一步[1][16]