仅一个月,DeepSeek再升级!单项测试最大提升超36%
产品更新与性能提升 - DeepSeek-V3.1-Terminus版本于9月22日发布 API价格保持百万tokens输入0.5元 输出12元 [1] - 新版本输出效果更稳定 Humanitys Last Exam测试得分从15.9提升至21.7分 增幅超36% BrowseComp测试提升28.3% [1] - 重点优化语言一致性 缓解中英文混杂和异常字符 增强Agent能力包括Code Agent与Search Agent表现 [3] 技术基准测试表现 - MMLU-Pro测试得分从84.8提升至85.0 GPQA-Diamond从80.1升至80.7 [2] - Agent测评中BrowseComp从30.0升至38.5 SimpleQA从93.4升至96.8 SWE Verified从66.0升至68.4 [2] - Terminal-bench从31.3提升至36.7 Codeforces从2091降至2046 Aider-Polyglot从76.3降至76.1 [2] 技术发展与产业影响 - 采用UE8M0 FP8参数精度 针对下一代国产芯片设计 8月发布后带动国产芯片产业链企业股价大涨 [2] - 快速迭代修复Bug 距上次发布仅一个月 在开源模型竞争中成为留住开发者关键 [3] - 具备高性能低成本优势 提出算法创新 打破海外算力堆砌路径 展示中国AI全球竞争力 [4] 行业投资机会 - 大模型训推带动AI算力需求增长 新一代算力架构GB300和Vera Rubin将推出 [4] - 算力产业链中AI芯片 服务器整机 铜连接 HBM 液冷 光模块 IDC等环节持续受益 [4]