Claude时代终结？LMArena实测DeepSeek R1编程得分超Opus 4，但月暗称其新模型更胜一筹

DeepSeek-R1（0528）性能突破 - 开源模型DeepSeek-R1（0528）在LMArena的WebDev Arena测试中以1408.84分超越Claude Opus 4（1405.51分），与Gemini-2.5-Pro-Preview-06-05（1433.16分）并列第一 [1][4] - 采用混合专家（MoE）架构，总参数量6850亿，单次推理激活370亿参数，支持128K tokens长上下文窗口，在数学推导和代码生成能力上显著提升 [9] - 在细分测试中表现：硬提示词第4、编程第2、数学第5、创意写作第6，多轮对话第7 [7] 开源与闭源模型竞争格局 - DeepSeek-R1以MIT许可证开源，性能对标Claude Opus 4和GPT-4.1，开发者社区认为其免费特性可能改变行业生态 [12][14] - 月之暗面同期发布开源模型Kimi-Dev-72B，在SWE-bench Verified测试中以60.4%得分创开源模型SOTA，超越R1（0528）的编码表现 [23][26] - Kimi-Dev-72B通过BugFixer与TestWriter双角色设计、1500亿数据中期训练及强化学习优化，实现真实仓库Docker修复能力 [28][30][31] 行业争议与动态 - LMArena测试平台被Cohere、斯坦福等机构指控偏袒科技巨头，Meta被指测试27个未公开模型变体以优化榜单排名 [17][19] - 社区对测试结果态度分化：部分开发者认为R1已具备碾压闭源模型的编程辅助能力，另一部分质疑WebDev Arena测试公正性 [16] - 月之暗面与DeepSeek的技术路线差异：前者侧重强化学习与自我博弈机制，后者聚焦训练后优化和计算效率 [26][31][32]