Constraint Attention

搜索文档
DeepSeek们越来越聪明,却也越来越不听话了
虎嗅APP· 2025-05-21 08:00
大模型推理能力与指令遵循的悖论 - 当前行业共识认为AI推理能力越强执行任务时表现越聪明 但最新研究发现这种"聪明"会导致模型提示词遵循能力下降 即越来越不听从用户指令 [3][5][6] - 论文《When Thinking Fails》通过两组测试(IFEval和ComplexBench)验证该现象 涉及15个主流模型包括GPT-4o-mini Claude 3 5/3 7 DeepSeek系列等 [14][19] - 在IFEval测试中14个模型有13个使用思维链(CoT)后准确率下降 其中LLaMA-3-70B-Instruct从85 6%降至77 3% Claude-3 7-Sonnet从90 6%微降至90 2% [19][20][23] 实验数据与机制分析 - ComplexBench测试显示所有模型使用CoT后表现变差 如GPT-4o-mini从66 5%降至60 3% Claude-3 5-Haiku从66 9%降至62 1% [19][20] - 根本原因是"约束注意力"下降 模型过度关注任务深层含义而忽视基础指令 例如在"只输出法语"任务中擅自添加英文翻译 [25][26] - 思维链长度与准确率无显著相关性 表明"更努力≠更对" 在规范输出任务中直接使用非推理模型效果更优 [28][29][30] 优化方案与技术启示 - 四种改进方案中"Classifier-Selective Reasoning"效果最佳 可恢复大部分准确率损失 如GPT-4o-mini在IFEval中从76 9%回升至82 1% 但需为每个主模型单独训练判断器 [38][40] - 行业启示在于智能的核心是注意力分配而非单纯推理能力 类似人类决策时需要聚焦关键节点而非全面分析 [43][48][52] - 当前大模型存在思维资源错配问题 未来发展方向应是提升"思考的分寸感"而非无限增强推理复杂度 [45][53][55]
DeepSeek们越来越聪明,却也越来越不听话了
虎嗅· 2025-05-20 22:20
大模型推理能力与指令遵循的悖论 - AI推理能力增强导致模型在执行任务时更聪明,但副作用是提示词遵循能力下降[2][3] - 论文验证15个主流模型使用思维链(CoT)后,14个在IFEval测试中准确率降低,所有模型在ComplexBench测试中表现变差[25][27] - LLaMA-3-70B-Instruct使用CoT后准确率从85.6%降至77.3%,工业级任务中8个百分点的损失影响显著[29][30] 实验设计与关键发现 - IFEval测试集包含"写400字以上""输出JSON格式"等明确指令任务,ComplexBench测试多约束复杂指令[20][23] - 模型使用CoT后注意力机制改变,对任务关键限制的关注度下降,出现擅自修改指令内容的现象[38][39] - 思维链长度与任务准确率无显著相关性,更长的思考不意味着更好的结果[41][42] 模型表现对比与改进方案 - Claude-3.7-Sonnet在IFEval基准测试中准确率90.6%,开启思考模式后降至90.2%[32] - 最有效的改进方案是训练独立分类器判断何时启用CoT,可恢复大部分损失准确率[56][58] - 自我反思(Self-Reflection)方法对大模型有效但小模型表现更差,少样本示例存在输入过长问题[51][53][50] 行业启示与智能发展方向 - 当前大模型存在思维资源错配问题,过度关注非核心要素导致指令偏离[65][66] - 真正智能应具备注意力聚焦能力,在关键节点精准分配认知资源[71][74] - 行业需要开发能判断"该想什么"的AI系统,而非单纯增强推理深度[75][77]
DeepSeek们越来越聪明,却也越来越不听话了。
数字生命卡兹克· 2025-05-20 04:14
大模型推理能力与指令遵循的权衡 - 核心观点:AI模型在增强推理能力(如使用Chain-of-Thought)后,执行指令的准确率普遍下降,表现为过度解读或修改指令内容[1][2][3] - 实验验证:15个主流模型(包括GPT-4o-mini、Claude 3.5/3.7、DeepSeek系列等)在IFEval和ComplexBench测试中,使用CoT后14/15模型准确率降低,部分下降幅度达8个百分点(如LLaMA-3-70B从85.6%降至77.3%)[4][5][6] - 原因分析:模型因"约束注意力"分散而擅自优化指令,例如补充解释或修改格式(如法语任务中添加英文翻译)[7][8][9] 提升指令遵循效果的解决方案 - 少样本示例(Few-Shot):效果有限且易受样本偏差影响[11][12] - 自我反思(Self-Reflection):大模型效果显著(如Claude 3.7准确率提升至92.1%),小模型适得其反[13] - 自选择推理(Self-Selective Reasoning):召回率高但精确度低,易过度推理[14] - 分类器选择推理(Classifier-Selective):最优方案(如GPT-4o-mini准确率恢复至82.1%),但需单独训练成本高[15][16][17] 智能效率的行业启示 - 资源错配现象:模型过度关注非核心细节(如语言修饰)导致任务偏离[20][21] - 聚焦能力价值:高阶智能应具备判断"关键注意力点"的能力,类似人类决策中的优先级筛选[22][24][26] - 技术发展方向:需平衡推理深度与执行精准度,避免"过度思考"陷阱[27][29][30]