核心观点 - 大模型强化学习新范式RLIF通过优化模型自身信心实现复杂推理 无需外部奖励信号或标注数据 [1][2][3] - 新方法INTUITOR使用KL散度衡量自信程度 在数学和代码任务上表现优于传统GRPO方法 [4][12][15] - 小模型(1.5B/3B)可涌现长思维链推理能力 并降低奖励黑客风险 [16][17][18] 技术方法 - 通过计算预测分布与均匀分布的KL散度作为内在奖励信号 Self-certainty [12][13] - 在线学习机制使评估标准与模型能力协同进化 有效防止作弊策略 [17][18][33] - 与RENT方法的主要区别在于使用KL散度与最小化熵衡量自信程度 [6][7] 实验结果 - Qwen2.5-1.5B经INTUITOR微调后 GSM8K从0.002提升至0.711 MATH500从0.090提升至0.530 [24][25] - Qwen2.5-3B在GSM8K基准上INTUITOR(0.811)优于GRPO(0.758) 代码任务性能比GRPO高8% [25][26][27] - 模型会添加自然语言推理步骤(如"为解决X问题需先执行Y步骤") 促进自我理解 [29][30] 性能表现 - INTUITOR早期学习速度更快 在多任务泛化中表现优秀 [25][27] - 对正确答案的self-certainty显著高于GRPO 具有更好的区分度 [35] - 代码生成任务中无效响应大幅减少 响应长度有效增加 [24] 研究背景 - 由UC Berkeley团队开发 主要作者包括Xuandong Zhao和Zhewei Kang [38][41] - 基于2024年2月发表的Best-of-N策略的先验尝试 [44] - 实验受计算资源限制 未来需在更大规模模型和数据集验证 [37]
AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现,强化学习无需外部奖励信号
量子位·2025-05-29 12:42