Workflow
DeepSeek-R1 再进化,这次的更新好强啊...
Seek .Seek .(US:SKLTY) 36氪·2025-06-04 11:32

模型升级 - DeepSeek-R1-0528 是 DeepSeek R1 的升级版本,沿用了 DeepSeek V3 Base 模型架构,但通过增加算力提升了性能 [3][4] - 新版模型在复杂推理、前端开发和降低幻觉等方面有显著改进 [3] - 模型命名延续了 DeepSeek 的低调风格,仅添加日期后缀 [3] 性能提升 - 在 AIME 2025 测试中,新版模型的 tokens 使用量从 12K 增加到 23K,准确率从 70% 提升至 87.5% [4] - 在 AIME 2024 数学竞赛 pass@1 测试中得分为 91.4,接近 OpenAI-03 的 91.6 [5] - 在 GPQA Diamond 科学测试 pass@1 中得分为 81.0,略低于 OpenAI-03 的 83.3 [5] - 在 LiveCodeBench 代码生成 pass@1 中得分为 73.3,接近 04-Mini (High) 的 79.5 [11] 编程与推理能力 - 新版模型在代码生成任务中一次性输出 728 行代码,优于 Claude 4 Sonnet 的 542 行 [11] - 在数学推理测试中,是唯一能稳定回答"9.9 - 9.11 等于多少"的模型 [13] - 在编程挑战中能生成干净代码和工作测试文件,且首次运行即完美无误 [14] 语言与创意能力 - 作为本土 AI,新版模型在中文语境下的表现优于国外模型 [16][17] - 幻觉率降低 45%~50%,输出内容更可靠 [18] - 在创意写作中能一气呵成生成逻辑顺畅的论文、小说和散文 [19] 行业影响 - 新版模型在国内 AI 领域处于领先地位,并接近国际顶尖模型如 o3 和 Gemini 2.5 Pro [15] - 部分用户认为更新"雷声大雨点小",但更多人期待其成为"国产之光" [22][23] - 模型在细节处理上优于 Claude 4 Sonnet,如光影反射和物理模拟 [13]