实测思维链大变！DeepSeek R1一个“小升级”性能直逼o3，但仍“过度思考”？

DeepSeek-R1-0528版本升级 - 公司在Huggingface平台开源了新版本DeepSeek-R1-0528，主要升级推理精度和代码生成速度[1][2] - 新版本在Live CodeBench基准测试中性能媲美OpenAI的o3（High）版本[2] - 官方称此次为"小版本试升级"，未发布训练方法技术报告[3] 模型性能表现 - 在8/1/2024测试中，DeepSeek-R1-0528以Pass@1 73.1排名第四，优于Groq-3-Mini（66.7）和Gemini-2.5-Flash-Preview（60.6）[3] - Easy-Pass@1达98.7，与排名第一的04-Mini（High）（99.1）接近[3] - Medium-P表现与多数竞品持平（8分），优于Grok-3-Mini（7分）和Gemini-2.5-Flash-Preview（7分）[3] 用户实测反馈 - 唯一能正确回答"9.9-9.11"问题的模型[7] - 推理能力接近Google模型，写作任务更自然且格式优化[8] - 编程能力显著提升但仍落后于o3和Claude 4[9] - 存在"过度思考"问题，如解答高中数学题耗时6分钟[9] 思维链改进 - 思维链（CoT）行为发生重大变化，从类似o系列转向类似Gemini风格[9] - 新版CoT被评价为"更加面向用户"[9] - 任务处理时间延长至每项30-60分钟[8] 行业动态 - AICon北京站将聚焦AI Agent构建、多模态应用等前沿议题[12] - Claude 4发布全球最强编码模型，可实现自主编码7小时[12] - Grok 3被质疑套壳Claude，xAI工程师遭批评[12] - 印度国家级大模型上线两天仅300余次下载，远低于韩国大学生模型（20万次）[12]