模型架构更新 - 采用混合推理架构,使用一个模型同时支持思考模式与非思考模式,模型标识从“R1”变为统一的“V3”[2] - 混合模型架构可简化部署和运维,提高算力利用效率,但用户仍需手动控制是否开启思考模式,而非自动路由[2] - 此次架构变革是模型融合策略的一部分,与GPT-5的智能路由调度不同,引发了社区关于该技术路线利弊的争论[1][2][23] 核心能力提升 - 编程能力大幅提升,在Aider编程基准测试中取得71.6%的高分,超越前代DeepSeek R1的71.4%甚至击败闭源模型Claude 4 Opus[3][5] - 在SVGBench测试中得分为53.1%,实力仅次于GPT-4.1-mini,远超前代DeepSeek R1的40.4%[6][7] - 在多任务语言理解(MMLU)测试中表现优异,得分达到88.5%,毫不逊色于GPT-5[7] - 智能体能力实现跃迁,在SWE-bench Verified基准上取得66.0分,远超前代V3-0324的45.4分和R1-0528的44.6分[18][19] - 在更具挑战性的Terminal-Bench测试中得分达到31.3,是前代推理模型R1-0528(5.7)的五倍以上[18][19] - 网页浏览和工具调用能力全面增强,Browsecomp测试得分从R1-0528的8.9分飙升至30.0分,提升超过三倍[19] 成本与效率优化 - 成本优势显著,完成同样一次完整编程任务的成本仅需约1.01美元,远低于Claude 4 Opus(便宜68倍)[10] - 官方最新定价为输入0.5元/百万tokens(缓存命中)和4元/百万tokens(缓存未命中),输出价格为12元/百万tokens[13] - 成本下降主要源于思维链压缩训练,使输出token数减少20%-50%的情况下,各项任务平均表现与R1-0528持平[15] - 生成速度显著提升,社区用户反馈V3.1比R1速度快了很多[17] 社区反馈与潜在问题 - 模型更新评价呈现两极分化,部分用户反馈旧版模型的“顽疾”复现,如幻觉严重和中英夹杂问题[1][24] - 模型在处理复杂问题时表现出“能省则省”的倾向,在多次尝试无果后会主动“放弃”,而非继续深度推理[25] - 公司激进的更新策略引发商业API用户不满,新模型直接覆盖旧模型且不提供旧版本API,影响商业应用稳定性[26] - 在研究生级别问答(GPQA)和软件工程(SWE-Bench verified)等领域,V3.1与GPT-5相比仍存在一定差距[8]
DeepSeek上线两天后再回看:一次“小更新”,一场架构“豪赌”