KL散度
搜索文档
Thinking Machine新研究刷屏!结合RL+微调优势,小模型训练更具性价比了
量子位· 2025-10-28 09:18
文章核心观点 - Thinking Machine提出一种名为“在线策略蒸馏”的新型大语言模型后训练方法,该方法通过结合在线策略的自主探索与离线策略的密集监督,显著提升了小模型在专业领域的学习效率和性能 [1][8] - 该方法在数学能力迁移和企业AI助理应用两个实验中展现出巨大优势,训练效率提升高达50-100倍,并能有效解决模型“灾难性遗忘”问题 [4][18][26] 方法原理与创新 - 在线策略蒸馏的核心创新在于融合了实战演戏(在线策略)和请家教(离线策略)两种传统训练模式的优点,如同一位“天才教练”在AI自主解题时提供即时指导 [3][4] - 该方法使用KL散度作为评估学生模型与教师模型分歧的指标,学生模型通过最小化逆向KL散度来模仿教师模型,该指标具备防作弊和使学习过程更稳定的优秀特性 [12][15][17] 实验验证与效果 - 在数学能力迁移实验中,使用在线策略蒸馏方法,仅需约150个训练步骤就将8B学生模型在AIME'24基准上的性能从60%提升至70%,计算成本相比传统监督微调方法降低了9-30倍 [19][21][22] - 在企业AI助理应用中,该方法成功解决了灾难性遗忘问题,使模型在内部知识评估得分从36%提升至41%的同时,通用聊天能力也从79%恢复至83% [23][25][26] 行业影响与团队背景 - 该方法的高效性(效率提升50-100倍)使得资源受限的个人或小公司也能训练出在特定领域具备竞争力的专业小模型,降低了AI应用门槛 [4][5] - 该研究由前OpenAI员工Kevin Lu领导,其曾在OpenAI负责4o-mini发布并参与o1-mini、o3发布,研究背景与强化学习、小模型和合成数据密切相关 [27][28][29]
微软副总裁X上「开课」,连更关于RL的一切,LLM从业者必读
机器之心· 2025-05-26 09:28
人工智能教育系列 - 微软副总裁Nando de Freitas在X平台上发布人工智能教育系列帖子,内容涵盖LLM强化学习、扩散模型、流匹配等技术发展[1] - 该系列因内容硬核导致读者参与度下降,但仍对RL和大模型学习者具有重要价值[3][4][5] - 系列将持续更新,后续将拓展至多步强化学习等进阶内容[6][82] 机器学习范式比较 - 监督学习通过最大似然估计实现状态-行动映射,依赖高质量专家数据,是大语言模型预训练的核心原理[9] - 强化学习采用选择性模仿机制,可从次优数据中学习并超越教师,具备自我提升特性[10][13][14] - 生成模型发展是过去十年强化学习进步的主要驱动力,而非算法创新[18] 分布式强化学习系统 - 工业级LLM强化学习需处理数百万次并行交互,涉及数十亿参数模型,成本极高[23] - 现代系统采用Actor-Learner架构:Actors负责环境交互与数据收集,Learners负责策略更新[23][24] - 聊天机器人场景中,Actors是对话接口,环境是用户,Learner需更高计算资源处理梯度统计[26] 强化学习技术方法 - 单步RL针对单一动作优化,多步RL需解决信用分配问题,后者在对话系统中尤为关键[35][38][40] - 策略梯度算法通过最大化期望回报实现策略优化,包含on-policy和off-policy两种范式[47][49][51] - 基线减法和KL散度是降低方差、保持策略稳定的关键技术[56][57][67][69] 前沿优化算法 - 重要性采样通过权重修正解决off-policy数据偏差,但存在高维空间不稳定性[73][75][76] - PPO算法通过裁剪机制控制策略更新幅度,结合KL约束提升训练稳定性[78] - DeepSeek-R1采用加权方案动态调整新旧数据贡献度,形成完整强化学习解决方案[29][78]