DeepSeek-R1(0528)模型升级与性能表现 - 核心观点:DeepSeek-R1(0528)在开源模型中表现突出,多项基准测试排名靠前,尤其在编程领域与闭源模型性能相当 [1][2][3][4] 模型升级与功能改进 - DeepSeek-R1(0528)为最新升级版本,改进基准测试性能,减少幻觉,支持JSON输出和函数调用 [3] - 模型及权重已公开,采用MIT开源协议 [2][8] LMArena基准测试排名 - 在文本基准测试(Text)中整体排名第6,开放模型中排名第一 [5] - 细分领域表现: - 硬提示词(Hard Prompt)排名第4 - 编程(Coding)排名第2 - 数学(Math)排名第5 - 创意性写作(Creative Writing)排名第6 - 指令遵循(Instruction Following)排名第9 - 更长查询(Longer Query)排名第8 - 多轮对话(Multi-Turn)排名第7 [6] WebDev Arena编程竞赛表现 - 与Gemini-2.5-Pro-Preview-06-05、Claude Opus 4(20250514)并列第一,分数超过Claude Opus 4 [7] - WebDev Arena评分: - Gemini-2.5-Pro-Preview-06-05:1433.16(±13.78/-16.08) - DeepSeek-R1(0528):1408.84(±16.75/-15.04) - Claude Opus 4(20250514):1405.51(±12.56/-12.44) [8] 行业影响与用户反馈 - DeepSeek-R1(0528)在AI编程领域与Claude Opus性能相当,被视为开源AI的关键里程碑 [10] - 模型在完全开放的MIT协议下提供领先性能,可能影响更广泛的编程领域 [10] - 实际用户体验仍需更多验证,以确认是否媲美闭源模型 [10]
刚刚,LMArena最新模型榜单出炉!DeepSeek-R1网页编程能力赶超了Claude Opus 4