DeepSeek们越来越聪明,却也越来越不听话了

大模型推理能力与指令遵循的悖论 - AI推理能力增强导致模型在执行任务时更聪明,但副作用是提示词遵循能力下降[2][3] - 论文验证15个主流模型使用思维链(CoT)后,14个在IFEval测试中准确率降低,所有模型在ComplexBench测试中表现变差[25][27] - LLaMA-3-70B-Instruct使用CoT后准确率从85.6%降至77.3%,工业级任务中8个百分点的损失影响显著[29][30] 实验设计与关键发现 - IFEval测试集包含"写400字以上""输出JSON格式"等明确指令任务,ComplexBench测试多约束复杂指令[20][23] - 模型使用CoT后注意力机制改变,对任务关键限制的关注度下降,出现擅自修改指令内容的现象[38][39] - 思维链长度与任务准确率无显著相关性,更长的思考不意味着更好的结果[41][42] 模型表现对比与改进方案 - Claude-3.7-Sonnet在IFEval基准测试中准确率90.6%,开启思考模式后降至90.2%[32] - 最有效的改进方案是训练独立分类器判断何时启用CoT,可恢复大部分损失准确率[56][58] - 自我反思(Self-Reflection)方法对大模型有效但小模型表现更差,少样本示例存在输入过长问题[51][53][50] 行业启示与智能发展方向 - 当前大模型存在思维资源错配问题,过度关注非核心要素导致指令偏离[65][66] - 真正智能应具备注意力聚焦能力,在关键节点精准分配认知资源[71][74] - 行业需要开发能判断"该想什么"的AI系统,而非单纯增强推理深度[75][77]