数学推理能力

搜索文档
AI越聪明越不听话!新研究:最强推理模型指令遵循率仅50%
量子位· 2025-05-24 12:38
核心观点 - 大模型在数学推理能力与指令遵循能力之间存在显著权衡关系,即模型越擅长复杂推理,越容易忽略用户指令要求 [1][6] - 研究团队通过MathIF基准系统验证了23个主流大模型,发现参数规模与指令服从性无正相关,部分小模型反而表现更佳 [6][7] - 推理导向训练(如SFT/RL)会提升解题能力但降低指令敏感性,且推理链越长模型越容易偏离指令要求 [9][10][13] MathIF基准设计 - 专门针对数学推理任务设计,通过程序自动验证模型对格式、语言、长度、关键词等指令的遵循程度 [3] - 包含单一/双重/三重指令组合测试,涵盖GSM8K简单题到AIME竞赛题不同难度层级 [3] - 采用硬准确率(HAcc)和软准确率(SAcc)量化评估,前者要求全部指令满足,后者计算平均满足比例 [4] - 指令类型覆盖长度限制(如500字内)、语言要求(仅中文)、格式规范(禁用逗号)、前后缀标记等5大类 [5] 实验结果 - 表现最佳的Qwen3-14B模型仅能遵守50.71%的指令(HAcc),67.06%的平均指令满足率(SAcc) [7] - 32B参数以上大模型中,Owen3-32B的HAcc达43.81%,但70B参数的DeepSeek-R1-Distill-Llama-70B+反降至41.43% [7] - 1.5B小模型Qwen2.5-Math-1.5B-Instruct在无约束时解题准确率44.05%,加入指令约束后反而提升至44.29% [7] 原因分析 - 推理导向训练使模型优先关注解题准确性,监督微调(SFT)导致Qwen2.5-7B的HAcc从15.95%降至7.86% [10][11] - 推理链长度与指令遵循负相关,人为延长思考过程会使HAcc下降超20个百分点 [13][15] - 限制RL训练中最大响应长度(1k tokens内)可提升指令遵循能力,但会牺牲部分推理性能 [17][18] 优化方法 - 在模型输出答案前重复指令要求,可使HAcc提升约5个百分点,但会降低解题准确率 [19][20] - 在RL训练中引入格式奖励机制,Qwen2.5-1.5B的SAcc从20.44%提升至28.49% [11]
40位数学家组成8队与o4-mini-medium比赛,6队败北
机器之心· 2025-05-24 11:13
AI与人类数学能力对比 - AI模型o4-mini-medium在FrontierMath基准测试中以6:2的比分击败了8支人类数学专家团队中的6支 [1] - o4-mini-medium在竞赛中得分22%,高于人类团队平均分19%,但低于所有团队综合得分35% [7] - Epoch AI预测AI很可能在年底前明确超越人类数学能力 [27] FrontierMath基准测试设计 - 测试包含300道题,难度从本科生水平到菲尔兹奖级别 [3] - 竞赛选取23道题(7道基础题+16道进阶题),涵盖拓扑学、代数几何等四个子类 [16] - 评分机制:进阶题每题2分,基础题1分,每个领域至少答对一题额外加1分 [16] - 题目难度分为3级,竞赛中普通题为1-2级,高级题均为3级 [24] 人类参赛者表现分析 - 40名参赛者(数学博士或竞赛获奖者)组成8个团队,每组4-5人 [11] - 人类团队解题正确率在13%-26%之间,平均19% [19] - 若考虑任何一支团队答对即算人类答对,人类正确率可提升至35% [21] - 参赛者在最喜欢的测试题上平均花费40分钟 [28] 测试结果解读 - 调整难度权重后,人类平均得分约30%,"多次尝试"方法下可达52% [24] - AI解题时间(5-20分钟/题)显著短于人类 [27] - 人类在长期扩展行为上优于AI,表现能持续提升 [29] - 当前测试可能低估人类能力,更多时间可能提升表现 [27] 测试局限性 - 参赛者不能完全代表前沿数学水平 [10] - 竞赛题目仅为FrontierMath的不具代表性子集 [8] - 人类基准定义模糊,估计值在30%-50%之间 [8][20] - 竞赛形式限制了人类表现,如时间压力等因素 [27]
大模型全军覆没,中科院自动化所推出多图数学推理新基准 | CVPR 2025
量子位· 2025-03-11 13:24
多图数学推理新基准MV-MATH - 中国科学院自动化研究所推出多图数学推理全新基准MV-MATH,旨在全面评估多模态大语言模型(MLLM)在多视觉场景中的数学推理能力 [1][4][5] - MV-MATH包含2009个高质量数学问题,涵盖K-12教育场景中的真实问题,分为选择题、填空题和多步问答题三种类型,覆盖11个数学领域和三个难度级别 [7][8] - 数据集特点包括多视觉场景(每个问题包含2-8个图片)、丰富的标注(至少两名标注者交叉验证)、多样化的数学领域(11个领域)和首次引入的图像关联性特征标签 [12][13][15][16] 数据集统计与分布 - 总问题数2009个,其中选择题1109个,填空题900个(单步800个,多步100个),测试集200个问题 [9] - 难度分布为简单27%、中等48%、困难25%,图像数量分布为2图48.73%、3图15.53%、4图22.55%、5图及以上13.39% [9] - 图像关联性分为相互依赖集(1412个问题)和独立集(597个问题),问题长度最短14个字符,最长383个字符,平均80.17个字符 [9][17] 模型评估结果 - 评估24个主流开源和闭源多模态大模型,表现最好的Claude-3.5整体准确率33.9%,远低于人类水平76.5% [21][22] - 其他表现较好的模型包括GPT-4o(32.1%)、Gemini-1.5-Pro(29.1%)和Qwen-vl-max(26.9%),开源模型LLaVA-OneVision-Chat-72B准确率26.2% [21][22] - 模型在不同领域表现差异显著,Claude-3.5在算术领域准确率54.2%,但在组合几何领域仅为27.0% [24][25] 细粒度分析 - 难度级别分析显示GPT-4o在简单问题上准确率最高(40.3%),Claude-3.5在中等难度问题上最高(37.5%),困难问题上所有模型表现大幅下降(Claude-3.5仅26.6%) [27] - 图像关联性分析表明绝大多数模型在相互依赖图像子集(MD)上性能低于独立图像子集(ID),Gemini-1.5-pro差距最大(7.8%) [29][30] - 图像输入方式分析显示图像序列输入表现优于合并输入,保留图像位置和顺序信息对多图推理至关重要 [30][31] 研究意义与展望 - 研究证实MLLM在复杂多视觉感知与图像交叉理解上存在困难,多图数学推理有极大改进空间 [33] - 研究旨在推动多图数学推理发展,为视觉大模型的慢推理范式提供参考 [32][33]