数学推理能力

搜索文档
AI越聪明越不听话!新研究:最强推理模型指令遵循率仅50%
量子位· 2025-05-24 12:38
核心观点 - 大模型在数学推理能力与指令遵循能力之间存在显著权衡关系,即模型越擅长复杂推理,越容易忽略用户指令要求 [1][6] - 研究团队通过MathIF基准系统验证了23个主流大模型,发现参数规模与指令服从性无正相关,部分小模型反而表现更佳 [6][7] - 推理导向训练(如SFT/RL)会提升解题能力但降低指令敏感性,且推理链越长模型越容易偏离指令要求 [9][10][13] MathIF基准设计 - 专门针对数学推理任务设计,通过程序自动验证模型对格式、语言、长度、关键词等指令的遵循程度 [3] - 包含单一/双重/三重指令组合测试,涵盖GSM8K简单题到AIME竞赛题不同难度层级 [3] - 采用硬准确率(HAcc)和软准确率(SAcc)量化评估,前者要求全部指令满足,后者计算平均满足比例 [4] - 指令类型覆盖长度限制(如500字内)、语言要求(仅中文)、格式规范(禁用逗号)、前后缀标记等5大类 [5] 实验结果 - 表现最佳的Qwen3-14B模型仅能遵守50.71%的指令(HAcc),67.06%的平均指令满足率(SAcc) [7] - 32B参数以上大模型中,Owen3-32B的HAcc达43.81%,但70B参数的DeepSeek-R1-Distill-Llama-70B+反降至41.43% [7] - 1.5B小模型Qwen2.5-Math-1.5B-Instruct在无约束时解题准确率44.05%,加入指令约束后反而提升至44.29% [7] 原因分析 - 推理导向训练使模型优先关注解题准确性,监督微调(SFT)导致Qwen2.5-7B的HAcc从15.95%降至7.86% [10][11] - 推理链长度与指令遵循负相关,人为延长思考过程会使HAcc下降超20个百分点 [13][15] - 限制RL训练中最大响应长度(1k tokens内)可提升指令遵循能力,但会牺牲部分推理性能 [17][18] 优化方法 - 在模型输出答案前重复指令要求,可使HAcc提升约5个百分点,但会降低解题准确率 [19][20] - 在RL训练中引入格式奖励机制,Qwen2.5-1.5B的SAcc从20.44%提升至28.49% [11]
40位数学家组成8队与o4-mini-medium比赛,6队败北
机器之心· 2025-05-24 11:13
AI与人类数学能力对比 - AI模型o4-mini-medium在FrontierMath基准测试中以6:2的比分击败了8支人类数学专家团队中的6支 [1] - o4-mini-medium在竞赛中得分22%,高于人类团队平均分19%,但低于所有团队综合得分35% [7] - Epoch AI预测AI很可能在年底前明确超越人类数学能力 [27] FrontierMath基准测试设计 - 测试包含300道题,难度从本科生水平到菲尔兹奖级别 [3] - 竞赛选取23道题(7道基础题+16道进阶题),涵盖拓扑学、代数几何等四个子类 [16] - 评分机制:进阶题每题2分,基础题1分,每个领域至少答对一题额外加1分 [16] - 题目难度分为3级,竞赛中普通题为1-2级,高级题均为3级 [24] 人类参赛者表现分析 - 40名参赛者(数学博士或竞赛获奖者)组成8个团队,每组4-5人 [11] - 人类团队解题正确率在13%-26%之间,平均19% [19] - 若考虑任何一支团队答对即算人类答对,人类正确率可提升至35% [21] - 参赛者在最喜欢的测试题上平均花费40分钟 [28] 测试结果解读 - 调整难度权重后,人类平均得分约30%,"多次尝试"方法下可达52% [24] - AI解题时间(5-20分钟/题)显著短于人类 [27] - 人类在长期扩展行为上优于AI,表现能持续提升 [29] - 当前测试可能低估人类能力,更多时间可能提升表现 [27] 测试局限性 - 参赛者不能完全代表前沿数学水平 [10] - 竞赛题目仅为FrontierMath的不具代表性子集 [8] - 人类基准定义模糊,估计值在30%-50%之间 [8][20] - 竞赛形式限制了人类表现,如时间压力等因素 [27]