Workflow
仅需1个数据,就能让大模型的数学推理性能大大增强?
机器之心·2025-05-09 17:02

大型语言模型(LLM)推理能力研究 核心观点 - 采用单个数学训练数据的1-shot RLVR方法可显著提升大型语言模型在数学推理任务上的表现,且效果与使用1.2k数据集相当 [2][3] - 1-shot RLVR的泛化能力不仅限于数学任务,还能拓展至非数学推理任务如ARC-Easy/Challenge [5] - 该方法在多种模型(Qwen2.5-Math-1.5B/7B、Llama-3.2-3B-Instruct等)和算法(GRPO、PPO)上均有效 [16][17] 方法细节 - 训练使用三项损失函数:policy gradient loss(基于0-1结果奖励)、KL divergence loss(保持语言质量)、entropy loss(鼓励多样性)[7] - 数据选择基于historical variance score,优先选取训练过程中准确度方差较大的数据,但1-shot RLVR对低方差数据同样有效 [8] - 性能提升主要源于policy gradient loss,与KL loss和weight decay关联性较低 [19] 实验发现 - 性能提升幅度:1-shot RLVR使Qwen2.5-Math-1.5B在MATH500上的准确率从36%提升至73.6%,Qwen2.5-Math-7B从51%提升至79.2% [3] - 饱和后泛化:单个训练样本的准确率快速饱和至近100%,但下游任务表现持续提升,过拟合在百万次rollout后才出现 [10][11] - 跨主题泛化:单个几何训练数据可同时提升代数、数论等其他数学主题的表现 [13] - 自我反思增强:下游任务中自我反思相关词汇频率显著增加 [14] 消融实验 - 移除KL loss和weight decay对1-shot RLVR效果影响较小,但entropy loss能进一步优化表现,尤其在饱和后泛化阶段 [19][20] - 仅使用entropy loss进行少量训练也能提升模型表现,即使训练数据标签错误仍可能部分有效 [20] 应用与启示 - 1-shot RLVR表明基础模型本身具备潜在推理能力,少量数据即可激发 [22] - 该方法对RLVR数据选择算法设计、探索机制优化及少样本应用场景具有启发意义 [22] (注:表格数据及具体实验参数详见原文引用部分 [7][17][20])