KL - Cov

搜索文档
10行代码,AIME24/25提高15%!揭秘大模型强化学习熵机制
机器之心· 2025-06-05 15:14
大模型强化学习中的熵塌缩问题 - 强化学习核心挑战在于利用-探索权衡,策略熵反映动作选择不确定性,传统方法通过正则化调控熵 [4] - 大语言模型训练中策略熵在几步内急剧下降至接近零,导致探索能力缺失和性能停滞,定量分析显示下游性能R与策略熵H符合指数关系R = -a exp(H)+b [4] - 在Qwen、Mistral、LLaMA和Deepseek等模型家族中验证熵塌缩现象,表明熵耗尽时性能上界确定,单纯增加算力收益有限 [7] 熵与协方差关系机制 - 策略熵单调递减的机制源于动作对数概率与logit变化的协方差,高优势度高概率动作降低熵,高优势度罕见动作增加熵 [13] - 实验显示训练初期高协方差推动熵减,后期协方差虽降低但仍维持正值持续压制熵 [13] - 传统熵/KL正则化方法在大模型中效果微弱,需针对性设计新方案 [16] 熵增强化学习方案 - 提出Clip-Cov与KL-Cov两种方法,通过限制高协方差token更新步长控制熵,Clip-Cov随机冻结部分高协方差token梯度,KL-Cov调整KL散度计算方式 [17][22] - 实验证明新方法可主动调节熵水平,在Qwen2.5-32B上实现6.4%性能提升,AIME24/25数据集提升达15% [22] - 训练动态显示新方案能维持熵值稳定并延长输出长度,突破低熵陷阱 [24] 理论与应用价值 - 发现类似Scaling Law的利用-探索曲线规律,可从小模型推演大模型性能并早期预测结果 [7] - 熵动力学理论为理解LLM强化学习底层机制提供新视角,推动算法优化 [24] - 后训练阶段算力投入增加背景下,突破熵瓶颈是实现强化学习规模化发展的关键 [24]