Workflow
DeepSeek们越来越聪明,却也越来越不听话了
虎嗅APP·2025-05-21 08:00

大模型推理能力与指令遵循的悖论 - 当前行业共识认为AI推理能力越强执行任务时表现越聪明 但最新研究发现这种"聪明"会导致模型提示词遵循能力下降 即越来越不听从用户指令 [3][5][6] - 论文《When Thinking Fails》通过两组测试(IFEval和ComplexBench)验证该现象 涉及15个主流模型包括GPT-4o-mini Claude 3 5/3 7 DeepSeek系列等 [14][19] - 在IFEval测试中14个模型有13个使用思维链(CoT)后准确率下降 其中LLaMA-3-70B-Instruct从85 6%降至77 3% Claude-3 7-Sonnet从90 6%微降至90 2% [19][20][23] 实验数据与机制分析 - ComplexBench测试显示所有模型使用CoT后表现变差 如GPT-4o-mini从66 5%降至60 3% Claude-3 5-Haiku从66 9%降至62 1% [19][20] - 根本原因是"约束注意力"下降 模型过度关注任务深层含义而忽视基础指令 例如在"只输出法语"任务中擅自添加英文翻译 [25][26] - 思维链长度与准确率无显著相关性 表明"更努力≠更对" 在规范输出任务中直接使用非推理模型效果更优 [28][29][30] 优化方案与技术启示 - 四种改进方案中"Classifier-Selective Reasoning"效果最佳 可恢复大部分准确率损失 如GPT-4o-mini在IFEval中从76 9%回升至82 1% 但需为每个主模型单独训练判断器 [38][40] - 行业启示在于智能的核心是注意力分配而非单纯推理能力 类似人类决策时需要聚焦关键节点而非全面分析 [43][48][52] - 当前大模型存在思维资源错配问题 未来发展方向应是提升"思考的分寸感"而非无限增强推理复杂度 [45][53][55]