Workflow
实测DeepSeek V3.1:不止拓展上下文长度
自动驾驶之心·2025-08-22 07:34

核心观点 - DeepSeek V3.1相比V3版本在多个维度实现性能提升,包括上下文长度扩展至128K、编程能力增强、写作风格更人性化、数学问题解答更清晰、翻译准确性提高,但在部分细节处理(如冷门知识回答)仍存在瑕疵 [1][3][9][13][22][25][30][37] - 模型在非推理任务中达到SOTA水平,例如在aider测试中得分71.6%,优于Claude Opus 4且成本低68倍,同时在SVGBench基准测试中表现优于其他变体 [43][44] - 用户可通过多种渠道访问模型,包括Hugging Face平台、网页端、APP及小程序,且API调用成本具竞争力(输入0.004元/千Token,输出0.016元/千Token) [8][10] 技术规格更新 - 上下文长度从65K扩展至128K,最大输入98,304 Token,支持多种张量格式 [1][10] - 思维链长度提升至32,768 Token,最大回复长度16,384 Token,较V3版本(8,192 Token)翻倍 [10] - 模型参数量为685B(满血版),较V3的671B略有增加 [10] 性能测试结果 编程能力 - V3.1代码生成更全面,增加异常处理(如检查GIF格式)、依赖库安装说明及命令行使用指南,而V3仅提供基础压缩代码 [13][14] - 实测中V3代码压缩18.3MB文件后仍超10MB需二次压缩,V3.1直接满足要求但输出GIF速度略慢 [15][18] 写作与翻译 - 写作风格从V3的理性平铺直叙变为V3.1的诗意表达,更贴近人类情感化输出 [22] - 翻译长难句能力提升(V3.1减少括号补充说明),但存在简单词漏译(如"several") [30] 数学与冷门知识 - 双曲线离心率问题(答案为2√2)两者均正确,但V3.1展示完整推导过程(含公式e=1+b2a2e=\sqrt{1+\frac{b^2}{a^2}}) [25][26] - 冷门知识问答中两者均错误判断构树果实为核果(实际应为瘦果),且V3.1出现中英文混用("conclusion")及回答偏题 [31][37][38] 市场反馈与基准表现 - Hugging Face热度升至第二,Reddit测试显示aider得分71.6%为非推理模型SOTA,成本仅为Claude Opus 4的1/68 [41][42][43] - SVGBench基准中V3.1得分53.1%优于思考版本(47.8%)及R1-0528(40.4%),但低于领先模型(如horizon-beta 67.4%) [44] - 用户报告新增特殊Token及自动搜索功能,物理理解能力(如动态GIF生成)有所提升 [45][47]