大模型竞技场最新战报 - DeepSeek新版R1在网页编程领域超越Claude Opus 4,成为当前第一 [1] - Claude Opus 4此前被公认为"全球最强编码模型",此次被超越显示竞争格局变化 [2] - DeepSeek-R1-0528在LiveCodeBench上的表现接近OpenAI o3-high水平,引发市场对其可能是R2版本的猜测 [3] 编程能力测试数据 - 在编程测试中,DeepSeek-R1-0528以73.4分排名第四,仅次于04-Mini(79.5)、03-High(75.4) [4] - 在Easy难度测试中达到98.3分,接近最高分98.8 [4] - Medium难度表现优异,以83.4分超过部分竞品 [4] - Hard难度得分52.7,显示在复杂编程任务上仍有提升空间 [4] 实际应用测试表现 - 制作太阳系动画应用仅需49秒生成Python代码,运行后产生基本动画效果 [6][7][9] - 使用Three.js实现交互式太阳系模拟仅需34秒完成设计 [10][11] - 创建AGI主题网页仅用23秒生成完整HTML/CSS/JavaScript代码 [14][15] - 开发俄罗斯方块游戏12秒生成Python代码,但存在明显bug [17][18][20] 行业地位与竞争优势 - DeepSeek-R1-0528在LMArena.al总榜排名第六,是当前最好的开源文本模型 [25][26] - 在细分领域表现:困难提示排名第4,数学排名第5,显示多领域竞争力 [27] - 采用MIT许可证,相比闭源模型(如Claude、GPT系列)更具开放性和可获取性 [26][27] - 对国内用户更友好,免费且易于获取,形成本地化优势 [24] 行业竞争动态 - Kimi新模型Kimi-Dev以72B参数量在SWE-bench Verified上取得60.4%成绩,创开源SOTA [29] - Kimi-Dev表现优于DeepSeek-R1,并与闭源模型竞争激烈,显示开源模型快速进步 [30] - 主要闭源模型仍占据优势,Gemini-2.5-pro-preview在多个细分领域排名第一 [28]
网页编程众测排名:DeepSeek-R1超越Claude 4加冕全球第一
量子位·2025-06-17 15:41