DeepSeek-R1-0528版本升级 - 公司在Huggingface平台开源了新版本DeepSeek-R1-0528,主要升级推理精度和代码生成速度[1][2] - 新版本在Live CodeBench基准测试中性能媲美OpenAI的o3(High)版本[2] - 官方称此次为"小版本试升级",未发布训练方法技术报告[3] 模型性能表现 - 在8/1/2024测试中,DeepSeek-R1-0528以Pass@1 73.1排名第四,优于Groq-3-Mini(66.7)和Gemini-2.5-Flash-Preview(60.6)[3] - Easy-Pass@1达98.7,与排名第一的04-Mini(High)(99.1)接近[3] - Medium-P表现与多数竞品持平(8分),优于Grok-3-Mini(7分)和Gemini-2.5-Flash-Preview(7分)[3] 用户实测反馈 - 唯一能正确回答"9.9-9.11"问题的模型[7] - 推理能力接近Google模型,写作任务更自然且格式优化[8] - 编程能力显著提升但仍落后于o3和Claude 4[9] - 存在"过度思考"问题,如解答高中数学题耗时6分钟[9] 思维链改进 - 思维链(CoT)行为发生重大变化,从类似o系列转向类似Gemini风格[9] - 新版CoT被评价为"更加面向用户"[9] - 任务处理时间延长至每项30-60分钟[8] 行业动态 - AICon北京站将聚焦AI Agent构建、多模态应用等前沿议题[12] - Claude 4发布全球最强编码模型,可实现自主编码7小时[12] - Grok 3被质疑套壳Claude,xAI工程师遭批评[12] - 印度国家级大模型上线两天仅300余次下载,远低于韩国大学生模型(20万次)[12]
实测思维链大变!DeepSeek R1一个“小升级”性能直逼o3,但仍“过度思考”?
AI前线·2025-05-29 11:58