刚刚，LMArena最新模型榜单出炉！DeepSeek-R1网页编程能力赶超了Claude Opus 4

DeepSeek-R1（0528）模型升级与性能表现 - 核心观点：DeepSeek-R1（0528）在开源模型中表现突出，多项基准测试排名靠前，尤其在编程领域与闭源模型性能相当 [1][2][3][4] 模型升级与功能改进 - DeepSeek-R1（0528）为最新升级版本，改进基准测试性能，减少幻觉，支持JSON输出和函数调用 [3] - 模型及权重已公开，采用MIT开源协议 [2][8] LMArena基准测试排名 - 在文本基准测试（Text）中整体排名第6，开放模型中排名第一 [5] - 细分领域表现： - 硬提示词（Hard Prompt）排名第4 - 编程（Coding）排名第2 - 数学（Math）排名第5 - 创意性写作（Creative Writing）排名第6 - 指令遵循（Instruction Following）排名第9 - 更长查询（Longer Query）排名第8 - 多轮对话（Multi-Turn）排名第7 [6] WebDev Arena编程竞赛表现 - 与Gemini-2.5-Pro-Preview-06-05、Claude Opus 4（20250514）并列第一，分数超过Claude Opus 4 [7] - WebDev Arena评分： - Gemini-2.5-Pro-Preview-06-05：1433.16（±13.78/-16.08） - DeepSeek-R1（0528）：1408.84（±16.75/-15.04） - Claude Opus 4（20250514）：1405.51（±12.56/-12.44） [8] 行业影响与用户反馈 - DeepSeek-R1（0528）在AI编程领域与Claude Opus性能相当，被视为开源AI的关键里程碑 [10] - 模型在完全开放的MIT协议下提供领先性能，可能影响更广泛的编程领域 [10] - 实际用户体验仍需更多验证，以确认是否媲美闭源模型 [10]