熵调制策略梯度(EMPG)框架

搜索文档
和理想基座模型负责人交流我之前说的对理想有帮助的字节论文
理想TOP2· 2025-09-17 13:01
读者不用被里面的名词吓到,有针对性解释。核心观点与逻辑链仔细多读几遍能懂的。 核心观点: 同一时期(2025年8月9月)理想和字节在探索Agent过程中,发现了相同的问题,基于各自业务特点,给出了类似的解决方案与效果。 其中理想更接近 高效和实用的工程解决方案。字节有更形式化更全面的数学定理做支撑,更接近考虑了所有的可能性。 观点补充: 理想和字节都各自独立发现,做agent 学习信号的强度(梯度大小)与模型决策时的不确定性(熵)存在一种天生的、有害的耦合关系的问题。 理想提出了AWE算法,字节提出了 熵调制策略梯度(EMPG)框架,该框架 由自校准梯度缩放 (Self-Calibrating Gradient Scaling)和未来清晰度奖励 (Future Clarity Bonus)两个组件构成。 AWE聚焦于监督微调(SFT)中的token, EMPG聚焦于强化学习(RL)中的step, 核心都是如何处理不确定带来的梯度问题,两者都采用了自适应或动态调制 的思路,利用模型自身的预测不确定性来反过来校准学习信号。都是利用模型内在的反馈信号(熵或概率)来指导训练,而不是对所有step/token一视同 仁 ...