Workflow
AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现,强化学习无需外部奖励信号
量子位·2025-05-29 12:42

梦晨 鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 复刻DeepSeek-R1的长思维链推理,大模型强化学习新范式RLIF成热门话题。 UC Berkeley团队共同一作 Xuandong Zhao 把这项成果称为: 大模型无需接触真实答案,仅通过优化自己的信心,就能学会复杂推理。 具体来说,新方法完全不需要外部奖励信号或标注数据,只需使用模型自身的置信程度作为内在奖励信号。 与使用外部奖励信号GRPO相比,新方法在数学任务上不需要标准答案也能提升基础模型性能,在代码任务上表现得更好。 几乎同一时间,另外一篇论文《RENT: Reinforcement Learning via Entropy Minimization》也验证了相似的结论。 作者表示两者的主要区别在于使用 KL散度 和 最小化熵 衡量自信程度。 Dropbox工程副总裁看后表示: Confidence is all you need 。 "自信"驱动的强化学习 长期以来,训练大模型主要依赖两种方式: 要么需要大量人工标注(如ChatGPT的RLHF),要么需要可验证的标准答案(如DeepSeek的RLVR)。 前者成本高昂且可能引入偏 ...