Workflow
监督微调(SFT)
icon
搜索文档
大模型刷数学题竟有害?CMU评估20+模型指出训练陷阱
量子位· 2025-07-07 14:13
henry 发自 凹非寺 量子位 | 公众号 QbitAI 学好数理化,走遍天下都不怕! 这一点这在大语言模型身上也不例外。 大家普遍认同:具备更强数学能力的模型往往也更智能。 但,常识就是用来打破的。 最近,来自CMU的团队发现,一些数学好的模型并没有将它们的"天赋"带到其他更加通用的领域。 研究发现, 只有用强化学习(RL)训练的模型才能将数学推理技能广泛迁移到其他任务上。而用监督微调(SFT)训练的模型则表现出有限 的迁移甚至没有迁移。 网友直呼:又一个 苦涩的教训(bitter lesson) 。 这数学题,不做也罢? 很明显,人们训练大模型并不只是让它来做数学题的。 研究者之所以热衷于提高模型的数学表现,是因为希望它能够把数学那里学到的严密逻辑应用到其他更广泛的领域。 但在此之前,我们有必要知道,对于一个大模型,专门优化数学推理(math reasoning),它在其他任务(推理任务、非推理任务)上会变 得更好,还是更差? 换句话说: 做数学推理训练,会不会帮助或者损害模型在其他领域的能力? 为了解决这一疑问,研究评估了20多个模型在数学推理、其他推理任务(包含医学推理、医学推理、智能体规划)和非推 ...
同时监督和强化的单阶段大模型微调,告别“先背书再刷题”,推理泛化双提升|中科院&美团等
量子位· 2025-07-02 10:02
核心观点 - 提出单阶段监督-强化微调方法SRFT,通过基于熵的动态加权机制将监督微调(SFT)和强化学习(RL)结合,提升大语言模型(LLM)推理性能[1][3] - SRFT在5项数学推理任务中实现59.1%平均准确率,较zero-RL基线提升9.0%,在分布外任务上平均准确率达62.5%,提升10.9%[4][47] - 相比传统两阶段SFT→RL方法,SRFT训练效率提升2.28倍,实现更稳定的收敛和更优的泛化能力[21][48] 方法设计 - 采用熵感知自适应权重机制动态平衡SFT和RL的贡献:高熵时降低SFT权重防止专家数据过度干扰,高熵时增加RL正样本权重促进熵稳定[29][44] - 双重策略设计:SFT组件实现粗粒度行为策略逼近,异策略RL组件利用演示数据进行细粒度优化[23][24][26] - 统一损失函数集成四个组件:演示数据SFT损失、演示数据RL损失、自探索正样本目标、自探索负样本目标[39][41] 性能对比 - 在AIME24等5个数学基准上,SRFT以59.5%平均准确率超越SFT(54.3%)和最佳zero-RL方法(50.1%)[43] - 在ARC-C等3个非数学基准上,SRFT以62.5%平均分领先SFT→RL(54.6%)和LUFFY(57.8%)等组合方法[43][47] - 响应长度分析显示SRFT能生成更详细的推理过程,而纯RL倾向于简洁输出[48] 训练动态 - 可视化显示SFT使模型概率空间移动最远,RL需将其拉回最优区域,而SRFT路径更直接高效[15] - 熵变化曲线表明SRFT维持更稳定的熵水平,避免RL导致的过早收敛,保留探索能力[20][48] - 重要性采样和分布不匹配缓解策略确保演示数据与当前策略的协同优化[31][32] 技术突破 - 首次实现单阶段协同学习:同步利用专家演示数据和模型自探索试错数据,解决知识遗忘问题[3][23] - 理论揭示SFT通过全局调整token分布(50%以上token受影响)类似"大锤",RL仅针对性调整2%token类似"手术刀"[9][10] - 提出新型训练轨迹可视化方法,以teacher forcing距离量化模型在概率空间的移动[14]
揭秘LLM“思考”之谜:推理即“梯度下降”,元学习框架解构训练过程,还给优化提供新思路
量子位· 2025-06-10 12:05
RaML框架核心观点 - 大语言模型(LLM)的推理过程可类比为梯度下降优化过程,推理轨迹中的每个令牌对应参数的一次隐式更新[2] - 研究团队通过理论推导证明Transformer模型中增加的推理轨迹令牌会内化为对模型参数的更新[2] - 实证验证显示随着推理轨迹解码,模型对正确答案的置信度逐步上升,证实推理轨迹作为参数更新的合理性[4] 元学习视角下的LLM推理 - 将LLM推理训练置于元学习框架下解释,每个具体问题视为独立任务[7] - 推理轨迹承担"内循环优化"角色,动态调整内部参数适应特定任务[8] - 外循环优化基于内循环结果调整"学习策略",形成双循环机制实现泛化能力[8] - 该框架统一解释LLM在不同训练策略、推理策略和任务泛化上的表现[9] 训练方法对比 - 有监督微调(SFT)模型相比纯强化学习(RL)模型在数学基准上表现更优[10] - SFT提供"最优梯度指导",对较小模型收益显著(Pass@8提升31%,mG-Pass@8提升175%)[13] - RL理论上限更高但需要更强基座模型,可采用SFT+RL混合训练策略[12] 推理轨迹特性 - 更长的推理轨迹对应更好的内循环优化效果,与传统优化算法迭代次数原理类似[14] - "反思"令牌能显著改变模型置信度,帮助跳出局部最优解[15][17] - 强制结束思考过程的令牌序列可能导致模型停留在次优解[18][20] 跨任务泛化能力 - 仅在数学推理训练即可提升科学推理和代码推理任务表现[21] - 模型学习到普适推理特征,通过元学习机制快速适应新任务[23] 实践优化策略 - 增加每个问题的训练轨迹数量(相当于扩大元学习支撑集)可提升推理表现[25] - 对长推理轨迹进行摘要提炼,在保持性能同时显著降低解码开销[30] - 未来可探索更高效的推理轨迹提取方法及任务配比优化[31] 研究价值 - 为理解大模型推理提供全新视角,揭示其与元学习、梯度下降的关联[32] - 理论框架具有实践指导意义,已开源代码和论文供进一步研究[32]
SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高
机器之心· 2025-06-01 11:30
机器之心报道 编辑:张倩 「尽管经过 SFT 的模型可能看起来在进行推理,但它们的行为更接近于模式模仿 —— 一种缺乏泛化推理能力的伪推理形式。」 随着 OpenAI 的 o1/o3 和 Deepseek-R1 等具备强大推理能力的大语言模型相继问世,学界普遍采用「监督微调 + 强化学习」的两阶段训练范式:先通过推理数据进 行监督微调(SFT),再通过强化学习(RL)进一步提升性能。这种成功模式启发了研究人员将其优势从纯文本领域拓展到视觉 - 语言大模型(LVLM)领域。 但近日的一项研究成果却给出了一个惊人的发现:「SFT 可能会阻碍学习 —— 经常导致出现伪推理路径,而 RL 则是在促进真正的多模态推理!」 这个发现来自加州大学圣克鲁兹分校和德克萨斯大学达拉斯分校等机构的一个研究团队,他们深入探讨了「SFT+RL」这一经典范式在视觉语言模型开发中的适用 性,其中重点关注了两个核心问题:1)SFT 与 RL 在多模态推理中分别产生何种独特作用?2)这种两阶段训练对 LVLM 的推理能力是否确有必要? 论文标题: SFT or RL? An Early Investigation into Training ...
只用图像也能思考,强化学习造就推理模型新范式!复杂场景规划能力Max
机器之心· 2025-05-25 11:51
例如,模型虽然能够识别图像中的物体并描述它们之间一些相对简单的空间关系,但在追求极致的定位精度,或需要深入理解和预测物体间高度复杂、动态或隐 含的交互逻辑(而非仅仅识别表面现象)时,其表现仍可能因视觉信息在文本化过程中的细节损失而受到限制。 机器之心报道 编辑:Panda、+0 近年来,LLM 及其多模态扩展(MLLM)在多种任务上的推理能力不断提升。然而, 现有 MLLM 主要依赖文本作为表达和构建推理过程的媒介,即便是在处理 视觉信息时也是如此 。 常见的 MLLM 结构。 这种模式要求模型首先将视觉信息「翻译」或「映射」为文本描述或内部的文本化 token,然后再利用大型语言模型的文本推理能力进行处理。 这个转换过程不可避免地可能导致视觉信息中固有的丰富细节、空间关系和动态特征的丢失或削弱,形成了所谓的「模态鸿沟 (modality gap) 」。这种鸿沟不仅限 制了模型对视觉世界的精细感知,也影响了其在复杂视觉场景中进行有效规划的能力。 来自剑桥、伦敦大学学院、谷歌的研究团队认为: 语言不一定始终是进行推理最自然或最有效的模态,尤其是在涉及空间与几何信息的任务场景中 。 基于此动因,研究团队提出了一种 ...
业界突破多模态泛化推理能力,OPPO研究院&港科广提出OThink-MR1技术
量子位· 2025-03-30 10:37
OThink-MR1团队 投稿 量子位 | 公众号 QbitAI SFT就像是老师给学生划重点,让学生按照固定的模式学习。虽然这种方法在特定任务上确实能让模型表现得不错,但难以培养关键的通用推 理能力。 与此同时, 强化学习(RL) 作为另一种训练方法,开始进入人们的视野。 RL就像是让学生在不断尝试中学习,做得好就给奖励,做得不好就"挨批评"。这种方法理论上可以让模型更灵活地应对各种任务,提升其推理 能力,但却存在多模态任务通用能力未充分探索、训练约束易导致次优瓶颈等问题。 用上动态强化学习,多模态大模型也能实现泛化推理了?! 来自OPPO研究院和港科广的科研人员提出了一项新技术—— OThink-MR1 ,将强化学习扩展到多模态语言模型,帮助其更好地应对各种复 杂任务和新场景。 研究人员表示, 这一技术使业界突破多模态泛化推理能力 。 众所周知,多模态大模型可以处理多种类型输入数据并生成相关输出,但一遇到复杂推理任务,其能力往往表现不佳。 目前大多数多模态模型在训练时,主要采用 监督微调(SFT) 的方法。 于是乎,OThink-MR1技术应运而生。 那么,它是如何让多模态模型突破泛化推理能力的呢? 基于 ...