策略梯度
搜索文档
RL训练中,为什么熵减往往意味着训练收敛?
自动驾驶之心· 2025-10-29 08:04
文章核心观点 - 文章从理论层面分析了在强化学习训练中,策略的熵值减小与训练收敛之间的内在联系 [1][4] - 核心观点指出,熵减导致收敛的现象主要是由softmax策略参数化方式特有的曲率性质造成的 [17] 理论分析:熵减与策略梯度衰减 - 对于softmax策略,状态s处关于logits的策略梯度范数的期望值直接等于1-exp{-H₂},其中H₂为Renyi-2熵 [6] - Renyi-2熵越小(例如接近0),期望的策略梯度范数也越接近0,而一般讨论的信息熵是Renyi-1熵,且Renyi熵在order上存在单调性,Renyi-1熵大于Renyi-2熵 [6] - 该现象背后的原理是:高概率动作的策略梯度范数更小,而熵越低越容易产生高概率动作,从而导致期望的梯度范数衰减 [7] 理论分析:熵减与策略更新幅度衰减 - 假设基础策略经过算法更新后得到新策略,状态s处更新前后logits向量的差为Δₛ,则新旧策略在状态s处的反向KL散度存在一个上界 [8] - 该上界与动作空间大小|𝒜|、logits变化的最大幅度‖Δₛ‖∞²以及(1-exp(-ℋ))成正比,其中ℋ为策略的熵 [8] - 当熵ℋ越接近0时,(1-exp(-ℋ))也越接近0,从而导致新旧策略在状态s处的KL移动幅度越接近0 [16] 结论与改进方向 - 熵减导致的学习衰退现象完全是由于softmax参数化的特殊曲率导致的 [17] - 在之前的RL研究中,使用牛顿法(如NPG)或更换其他参数化方式(如Hadamard参数化的PG)能够在一定程度上克服此问题,避免陷入局部最优 [17] - 文章指出,LLM与RL结合的研究仍有改进softmax参数化导致特殊学习动态的机会 [17]
微软副总裁X上「开课」,连更关于RL的一切,LLM从业者必读
机器之心· 2025-05-26 09:28
人工智能教育系列 - 微软副总裁Nando de Freitas在X平台上发布人工智能教育系列帖子,内容涵盖LLM强化学习、扩散模型、流匹配等技术发展[1] - 该系列因内容硬核导致读者参与度下降,但仍对RL和大模型学习者具有重要价值[3][4][5] - 系列将持续更新,后续将拓展至多步强化学习等进阶内容[6][82] 机器学习范式比较 - 监督学习通过最大似然估计实现状态-行动映射,依赖高质量专家数据,是大语言模型预训练的核心原理[9] - 强化学习采用选择性模仿机制,可从次优数据中学习并超越教师,具备自我提升特性[10][13][14] - 生成模型发展是过去十年强化学习进步的主要驱动力,而非算法创新[18] 分布式强化学习系统 - 工业级LLM强化学习需处理数百万次并行交互,涉及数十亿参数模型,成本极高[23] - 现代系统采用Actor-Learner架构:Actors负责环境交互与数据收集,Learners负责策略更新[23][24] - 聊天机器人场景中,Actors是对话接口,环境是用户,Learner需更高计算资源处理梯度统计[26] 强化学习技术方法 - 单步RL针对单一动作优化,多步RL需解决信用分配问题,后者在对话系统中尤为关键[35][38][40] - 策略梯度算法通过最大化期望回报实现策略优化,包含on-policy和off-policy两种范式[47][49][51] - 基线减法和KL散度是降低方差、保持策略稳定的关键技术[56][57][67][69] 前沿优化算法 - 重要性采样通过权重修正解决off-policy数据偏差,但存在高维空间不稳定性[73][75][76] - PPO算法通过裁剪机制控制策略更新幅度,结合KL约束提升训练稳定性[78] - DeepSeek-R1采用加权方案动态调整新旧数据贡献度,形成完整强化学习解决方案[29][78]