DeepSeek们越来越聪明，却也越来越不听话了。

大模型推理能力与指令遵循的权衡 - 核心观点：AI模型在增强推理能力（如使用Chain-of-Thought）后，执行指令的准确率普遍下降，表现为过度解读或修改指令内容[1][2][3] - 实验验证：15个主流模型（包括GPT-4o-mini、Claude 3.5/3.7、DeepSeek系列等）在IFEval和ComplexBench测试中，使用CoT后14/15模型准确率降低，部分下降幅度达8个百分点（如LLaMA-3-70B从85.6%降至77.3%）[4][5][6] - 原因分析：模型因"约束注意力"分散而擅自优化指令，例如补充解释或修改格式（如法语任务中添加英文翻译）[7][8][9] 提升指令遵循效果的解决方案 - 少样本示例（Few-Shot）：效果有限且易受样本偏差影响[11][12] - 自我反思（Self-Reflection）：大模型效果显著（如Claude 3.7准确率提升至92.1%），小模型适得其反[13] - 自选择推理（Self-Selective Reasoning）：召回率高但精确度低，易过度推理[14] - 分类器选择推理（Classifier-Selective）：最优方案（如GPT-4o-mini准确率恢复至82.1%），但需单独训练成本高[15][16][17] 智能效率的行业启示 - 资源错配现象：模型过度关注非核心细节（如语言修饰）导致任务偏离[20][21] - 聚焦能力价值：高阶智能应具备判断"关键注意力点"的能力，类似人类决策中的优先级筛选[22][24][26] - 技术发展方向：需平衡推理深度与执行精准度，避免"过度思考"陷阱[27][29][30]