监督微调(SFT)

搜索文档
为什么行业如此痴迷于强化学习?
自动驾驶之心· 2025-07-13 21:18
核心观点 - 强化学习(RL)相比监督微调(SFT)能显著提升大语言模型的泛化能力,尤其在跨领域任务迁移中表现更优 [5][6][14] - 数学推理能力的提升可正向迁移至其他理科领域,验证了RL训练对机器智能发展的关键作用 [7][15] - SFT训练会导致模型在非推理任务上出现负向迁移(TI_non达113.7),而RL模型保持稳定(TI_non仅36.9) [7][12] 训练方法对比 - **模仿学习(SFT)**:依赖高质量数据集直接复制解题过程,但导致模型输出冗长(3000+重复token)且破坏原有知识结构(158-390个无关token变化) [6][13][16] - **强化学习(RL)**:仅提供最终答案奖励,模型自主探索解题路径,保持表示空间稳定(仅14-15个任务相关token变化) [10][11][16] 实验设计 - 使用相同基础模型(Qwen3-14B-Base)和数学数据集(47K问题)对比RL与SFT效果 [11] - 可迁移指数量化显示:RL模型在数学/其他推理/非推理任务的TI分别为8.5/3.5/36.9,显著优于SFT模型(21.4/10.9/113.7) [8][12] - PCA分析证实RL模型的表示漂移距离最小,知识结构保留度最佳 [10] 案例表现 - 数学问题求解:RL模型直接建立方程(简洁),SFT模型产生大量冗余检查步骤 [13] - 非推理任务:RL模型高效完成辞职邮件,SFT模型陷入过度思考循环 [13] 行业意义 - 研究为Grok 4等新一代RL训练范式提供了理论支撑,证明探索式学习更接近人类智能发展路径 [1][14][15] - 数学能力作为基础学科的迁移效应,验证了跨领域知识转移对AI系统的重要性 [7][15]
豆蔻妇科大模型再突破:钉钉行业训练平台+精标数据SFT ,准确率从 77.1%上升至 90.2%
钛媒体APP· 2025-07-10 15:49
医疗AI模型优化 - 通用大语言模型在医疗临床场景中表现欠佳,可能给出不准确或错误建议[1] - 监督微调(SFT)是解决医疗AI模型专业性的关键方案,但需要高质量数据集和迭代优化过程[1] - 豆蔻妇科大模型通过SFT优化,准确率从77.1%提升至90.2%[3] 数据集构建与质量控制 - 数据清理重点关注推理与结果一致性,剔除逻辑链条不完整或违背医学原理的数据[2] - 数据蒸馏校准确保思维链(COT)数据质量,诊断优先级需有明确医学依据支撑[5] - 数据集需覆盖全生命周期病例和常见病与罕见病比例,避免诊断偏好[6] 模型训练优化过程 - 第一阶段(2025年4月)使用1300条精标中文妇科问诊数据,构建基础模型[3] - 第二阶段(2025年6月)通过合成症状数据、重新蒸馏标注COT等优化策略提升性能[3] - 采用"训练-评测-筛选-再训练"循环,持续监控关键指标如测试集准确率和罕见病例识别率[10] 评估体系 - 构建自动化评测和人工审核双重评估体系,采用10分制标准评分[11] - 自动化评测系统基于高性能语言模型,支持批量处理和标准化评分框架[11] - 医生修正反馈机制对边缘案例进行人工审核,形成闭环迭代优化[13] 训练平台与技术 - 使用钉钉企业专属AI平台进行训练调优,覆盖SFT/RFT两种训练方法[17] - 平台提供分布式训练、多Lora部署等加速优化手段,训练时长从26小时缩短至7小时[17] - 未来将探索SFT+RL协同训练范式,结合结构化医学知识和临床直觉[18] 经验与挑战 - 初期过度依赖人工标注导致效率低下,后期调整为"机器蒸馏→专家审核→训练后评估"体系[14] - 训练数据集过度集中常见病导致罕见病识别不足,采用平衡采样策略改进[15] - 医疗大模型需具备多维思考模式,在低容错率环境下提供专业诊断建议[16]
大模型刷数学题竟有害?CMU评估20+模型指出训练陷阱
量子位· 2025-07-07 14:13
数学能力与模型迁移性研究 - 核心观点:数学能力强的模型不一定能将技能迁移到其他领域,强化学习(RL)训练的模型展现出显著优于监督微调(SFT)的跨任务迁移能力[1][4][19] - 数学能力与通用智能的关系:传统认知认为数学能力强的模型更智能,但最新研究表明这并非绝对[2][3] - 研究方法:评估20+模型在数学推理、其他推理(医学推理、智能体规划)和非推理任务(常识对话、指令遵循)的表现[7] - 关键指标:提出迁移能力指标(TI),量化数学能力提升对其他任务的迁移效果(TI>0为正迁移,TI<0为负迁移)[8][9] - 实验结果:RL微调模型在数学任务平均得分达53.8,较基线提升4.1,且在其他推理任务TI达+79.6,非推理任务TI+29.3;SFT模型在非推理任务出现显著负迁移(TI最低-250.2)[10][11] - 机制分析:RL模型PCA偏移最小,KL散度更低(平均降低24.0),token排名偏移更小,说明其能保持原有知识同时增强特定领域能力[15][16][17][18] - 行业启示:强化学习是实现可迁移推理发展的关键技术路径,对AI产品开发具有重要指导意义[19]
同时监督和强化的单阶段大模型微调,告别“先背书再刷题”,推理泛化双提升|中科院&美团等
量子位· 2025-07-02 10:02
核心观点 - 提出单阶段监督-强化微调方法SRFT,通过基于熵的动态加权机制将监督微调(SFT)和强化学习(RL)结合,提升大语言模型(LLM)推理性能[1][3] - SRFT在5项数学推理任务中实现59.1%平均准确率,较zero-RL基线提升9.0%,在分布外任务上平均准确率达62.5%,提升10.9%[4][47] - 相比传统两阶段SFT→RL方法,SRFT训练效率提升2.28倍,实现更稳定的收敛和更优的泛化能力[21][48] 方法设计 - 采用熵感知自适应权重机制动态平衡SFT和RL的贡献:高熵时降低SFT权重防止专家数据过度干扰,高熵时增加RL正样本权重促进熵稳定[29][44] - 双重策略设计:SFT组件实现粗粒度行为策略逼近,异策略RL组件利用演示数据进行细粒度优化[23][24][26] - 统一损失函数集成四个组件:演示数据SFT损失、演示数据RL损失、自探索正样本目标、自探索负样本目标[39][41] 性能对比 - 在AIME24等5个数学基准上,SRFT以59.5%平均准确率超越SFT(54.3%)和最佳zero-RL方法(50.1%)[43] - 在ARC-C等3个非数学基准上,SRFT以62.5%平均分领先SFT→RL(54.6%)和LUFFY(57.8%)等组合方法[43][47] - 响应长度分析显示SRFT能生成更详细的推理过程,而纯RL倾向于简洁输出[48] 训练动态 - 可视化显示SFT使模型概率空间移动最远,RL需将其拉回最优区域,而SRFT路径更直接高效[15] - 熵变化曲线表明SRFT维持更稳定的熵水平,避免RL导致的过早收敛,保留探索能力[20][48] - 重要性采样和分布不匹配缓解策略确保演示数据与当前策略的协同优化[31][32] 技术突破 - 首次实现单阶段协同学习:同步利用专家演示数据和模型自探索试错数据,解决知识遗忘问题[3][23] - 理论揭示SFT通过全局调整token分布(50%以上token受影响)类似"大锤",RL仅针对性调整2%token类似"手术刀"[9][10] - 提出新型训练轨迹可视化方法,以teacher forcing距离量化模型在概率空间的移动[14]
SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高
机器之心· 2025-06-01 11:30
核心观点 - 研究发现监督微调(SFT)在多模态推理中可能阻碍学习,导致伪推理路径,而强化学习(RL)则促进真正的多模态推理 [3][9] - 传统两阶段训练范式(SFT+RL)在视觉语言模型(LVLM)中可能导致性能下降,7B模型相对性能下降47% [11][13] - 纯RL训练方案更具优势,VLAA-Thinker-Qwen2.5VL-3B模型在Open LMM推理榜单4B量级模型中位列第一,以1.8%优势刷新纪录 [15] 数据集构建 - 研究者构建了首个支持SFT与RL的全方位高质量图文推理数据集VLAA-Thinking,包含203,182条原始数据和144,895条处理后的数据 [4][5] - 数据集包含基于R1模型"先思考后回答"范式生成的完整推理链条,SFT分支包含多模态思维链样本,RL分支筛选更具挑战性的样本 [5] - 数据处理流程分为六阶段:元数据收集→图像描述生成→基于R1的知识蒸馏→答案重写→人工验证→数据划分 [6] SFT与RL对比研究 - SFT提高了模型在标准任务中的性能,但在增强复杂推理方面能力欠缺,可能诱发"伪推理路径"和"伪aha moment" [9] - 对已对齐模型使用SFT+GRPO会导致平均12.7%的性能下降,且模型规模差异影响甚微 [13] - SFT虽可帮助未对齐模型遵循指令,但其模仿式推理会限制RL阶段的探索空间 [15] GRPO训练优势 - 强化学习在增强推理能力方面表现出色,GRPO在文本数学推理任务中比其他方法更有效、更高效 [17] - 研究者提出了混合奖励框架,包含五种可验证的奖励类型,涵盖视觉感知和视觉推理任务 [19] - 直接使用GRPO训练的模型在视觉语言推理任务中显著优于其基础模型 [31] SFT对GRPO的影响 - SFT与多模态推理中的GRPO不兼容,在GRPO训练前进行SFT的模型性能比仅使用GRPO训练的模型更差,平均下降8.9% [21] - SFT对指令模型的性能损害比对没有指令跟随能力的基础模型更大,Qwen2VL-Inst性能比Qwen2VL-Base下降7.7% [21] - 较小的SFT数据集仍然会影响GRPO的性能 [23] 模型性能分析 - 响应长度、奖励分数与性能表现无显著相关性,SFT模型虽能获得更高初始奖励和更长响应,但实际表现逊于纯RL训练模型 [15][24] - SFT仅提供了RL训练的一个更高的"下限",但可能会降低"上限",限制了模型的探索路径 [26] - 经过更好指令调优的模型在GRPO训练后表现更佳,说明高质量的指令调优能够增强模型在强化学习后的推理能力 [31]
业界突破多模态泛化推理能力,OPPO研究院&港科广提出OThink-MR1技术
量子位· 2025-03-30 10:37
多模态大模型技术突破 - OThink-MR1技术通过动态强化学习框架显著提升多模态语言模型的泛化推理能力,突破传统方法的局限性[1][7][29] - 传统监督微调(SFT)方法在特定任务表现良好但缺乏通用推理能力,而强化学习(RL)存在训练约束导致次优瓶颈的问题[4][5] 核心技术机制 - 动态KL散度策略(GRPO-D)动态调整探索与利用的平衡,避免模型陷入局部最优解[8][10][11][12] - 双奖励模型设计包含验证准确性奖励和格式奖励,通过多维度反馈提升模型学习效率[13][14][15] 实验验证结果 - 同任务评估中GRPO-D表现超越监督微调方法,在视觉计数和几何推理任务成绩提升显著[17][18][28] - 跨任务评估显示GRPO-D模型在完全不同的任务类型间展现强泛化能力,成绩较未训练模型大幅提高[21][22][23][24] - 格式奖励权重非零时模型表现更优,KL散度权重需适中调节以取得最佳效果[17][18] 行业影响 - 该技术为多模态语言模型发展开辟新路径,展现动态强化学习在提升推理与泛化能力方面的潜力[29] - 技术由OPPO研究院与香港科技大学(广州)联合研发,论文已公开发表于arXiv平台[30]