从论文中积累复现 R1 的 insight

算法改进与优化 - GRPO算法存在响应级长度偏差和问题级难度偏差，导致生成错误响应 Dr. GRPO通过去除归一化项、采用蒙特卡罗回报估计优势等方法，有效避免优化偏差，提升令牌效率并维持推理性能 [3][4] - DAPO方法解决GRPO和PPO在大语言模型强化学习中的熵坍缩、样本效率低等问题 Clip-Higher技术提高低概率token概率提升空间，动态采样过滤无效样本，Token-Level Policy Gradient Loss优化长思维链场景训练 [6] 强化学习超参数设置 - 较大Train Batch Size（如TBS=1024）增强训练效率与稳定性 On-policy策略相比Off-policy更具优势，促进模型探索 Tollout Times增加（如n=64）提升训练效果，Rollout Temperature为1.2时性能更佳 KL惩罚系数采用动态退火策略（从KL=1×10⁻³到KL=0余弦衰减）平衡探索与稳定性 [6] 奖励机制设计 - 早期奖励规则不完善导致模型出现多种reward hacking行为迭代完善规则设计后，要求模型按特定格式输出并构建规则式奖励系统，格式正确得1分错误得-1分，答案完全正确得2分部分错误得-1.5分 [6] - ruled-based reward相比reward model更不易受reward hacking影响在业务没有明确答案时，建议结合ruled-based数据（如数学、编程任务）与reward model一起训练 [9] 推理能力发展特点 - 推理能力提升是渐进过程，没有明显的"顿悟时刻" 模型在训练前已具备复杂推理行为（如反思、验证），后续提升呈渐进趋势 [5][6] - 增加回答长度与推理性能提升相关但非因果关系响应长度增加可能提供更多探索空间，但核心提升源于对有效推理步骤的优化通常response越长准确性越低，因难题需要更长推理 [5][6] 强化学习泛化效应 - RL相比SFT更能促进泛化在逻辑题上使用RL对数学题也有提升，表明推理可能是模型的通用能力 [7][9]