Workflow
DeepSeek小版本大升级,新R1模型代码能力媲美OpenAI o3
Seek .Seek .(US:SKLTY) 第一财经·2025-05-29 11:04

模型升级与性能表现 - DeepSeek-R1-0528模型完成小版本试升级并在HuggingFace开源平台发布,但官方未更新模型卡及公告 [1] - 海外开发者测试发现该版本代码能力提升显著,在Live CodeBench平台性能接近OpenAI的o3-high模型 [1] - 在代码测试排名中,DeepSeek-R1-0528以Pass@1 73.1、Easy-Pass@1 98.7、Medium-Pass 85.2位列第四,优于Grok-3-Mini和Claude-3系列模型 [3][4] - 开发者实测显示新模型在32K上下文内的文本召回效果优于旧版R1,但60K上下文表现下降 [7] 开发者反馈与横向对比 - 开发者认为新模型写作任务改进明显,输出更自然且减少"量子力学元素"等异常内容 [7] - AI博主测试显示新模型在橙色小球撞击模拟中,漫反射和撞击效果优于Claude-4-Sonnet [5] - 部分开发者认为个案测试不具代表性,需等待评测榜单和长期口碑验证 [7] - Claude-4系列因测试速率限制未参与榜单排名,但其公认编程能力未被纳入直接比较 [5] 版本迭代策略与行业观察 - 公司延续低调更新风格,类似3月发布的DeepSeek-V3-0324也未高调宣传,该版本曾通过强化学习技术提升推理任务表现 [7] - 业内猜测公司可能仅通过调整训练数据实现能力提升,因此不定义为大版本升级,而其他厂商的版本号迭代或为营销需求 [8] - 开发者期待下一代R2模型能显著提升上下文长度和多模态能力,以满足生产需求 [8]