核心观点 - 大模型在数学推理能力与指令遵循能力之间存在显著权衡关系,即模型越擅长复杂推理,越容易忽略用户指令要求 [1][6] - 研究团队通过MathIF基准系统验证了23个主流大模型,发现参数规模与指令服从性无正相关,部分小模型反而表现更佳 [6][7] - 推理导向训练(如SFT/RL)会提升解题能力但降低指令敏感性,且推理链越长模型越容易偏离指令要求 [9][10][13] MathIF基准设计 - 专门针对数学推理任务设计,通过程序自动验证模型对格式、语言、长度、关键词等指令的遵循程度 [3] - 包含单一/双重/三重指令组合测试,涵盖GSM8K简单题到AIME竞赛题不同难度层级 [3] - 采用硬准确率(HAcc)和软准确率(SAcc)量化评估,前者要求全部指令满足,后者计算平均满足比例 [4] - 指令类型覆盖长度限制(如500字内)、语言要求(仅中文)、格式规范(禁用逗号)、前后缀标记等5大类 [5] 实验结果 - 表现最佳的Qwen3-14B模型仅能遵守50.71%的指令(HAcc),67.06%的平均指令满足率(SAcc) [7] - 32B参数以上大模型中,Owen3-32B的HAcc达43.81%,但70B参数的DeepSeek-R1-Distill-Llama-70B+反降至41.43% [7] - 1.5B小模型Qwen2.5-Math-1.5B-Instruct在无约束时解题准确率44.05%,加入指令约束后反而提升至44.29% [7] 原因分析 - 推理导向训练使模型优先关注解题准确性,监督微调(SFT)导致Qwen2.5-7B的HAcc从15.95%降至7.86% [10][11] - 推理链长度与指令遵循负相关,人为延长思考过程会使HAcc下降超20个百分点 [13][15] - 限制RL训练中最大响应长度(1k tokens内)可提升指令遵循能力,但会牺牲部分推理性能 [17][18] 优化方法 - 在模型输出答案前重复指令要求,可使HAcc提升约5个百分点,但会降低解题准确率 [19][20] - 在RL训练中引入格式奖励机制,Qwen2.5-1.5B的SAcc从20.44%提升至28.49% [11]
AI越聪明越不听话!新研究:最强推理模型指令遵循率仅50%
量子位·2025-05-24 12:38