大模型刷数学题竟有害?CMU评估20+模型指出训练陷阱
量子位·2025-07-07 14:13
数学能力与模型迁移性研究 - 核心观点:数学能力强的模型不一定能将技能迁移到其他领域,强化学习(RL)训练的模型展现出显著优于监督微调(SFT)的跨任务迁移能力[1][4][19] - 数学能力与通用智能的关系:传统认知认为数学能力强的模型更智能,但最新研究表明这并非绝对[2][3] - 研究方法:评估20+模型在数学推理、其他推理(医学推理、智能体规划)和非推理任务(常识对话、指令遵循)的表现[7] - 关键指标:提出迁移能力指标(TI),量化数学能力提升对其他任务的迁移效果(TI>0为正迁移,TI<0为负迁移)[8][9] - 实验结果:RL微调模型在数学任务平均得分达53.8,较基线提升4.1,且在其他推理任务TI达+79.6,非推理任务TI+29.3;SFT模型在非推理任务出现显著负迁移(TI最低-250.2)[10][11] - 机制分析:RL模型PCA偏移最小,KL散度更低(平均降低24.0),token排名偏移更小,说明其能保持原有知识同时增强特定领域能力[15][16][17][18] - 行业启示:强化学习是实现可迁移推理发展的关键技术路径,对AI产品开发具有重要指导意义[19]