Workflow
无监督强化学习
icon
搜索文档
ICLR 2026 | 大模型的无监督强化学习能走多远?清华团队给出了系统性答案
机器之心· 2026-03-21 11:27
强化学习技术范式演进 - 强化学习正在重塑大模型能力边界,OpenAI o3、DeepSeek-R1、Gemini 3等顶尖模型正使用大规模RLVR刷新推理任务天花板[3] - 纯监督式训练不可持续,人工标注成本指数级增长,在专业领域获取可靠标注越来越难,当模型能力逼近或超越人类专家时面临评分难题[3] - 无监督RLVR应运而生,旨在让模型在没有人工标注的情况下持续进化,这被视为降本增效和通往超级智能的必经之路[3] 无监督RLVR的内在机制与核心发现 - 研究发现,所有基于模型自身信号的内在奖励方法都遵循相似轨迹:训练初期性能快速攀升,但到达某个临界点后开始不可逆地滑落[4] - 这不是某个方法的缺陷,而是机制的宿命,其本质都在锐化模型已有的偏好,像一个回声室,让模型不断重复自己最初相信的东西[4] - 内在奖励方法的成败取决于模型“置信度-正确性”的对齐程度,即模型先验[14] - 如果模型初始倾向正确,锐化有效,性能提升;如果模型初始倾向错误,锐化有害,加速崩溃[14][18] - 在小规模测试时训练场景中,内在奖励方法能稳定提升性能,即使模型一开始全是错的,也能在自我纠偏中进化[4][16] 内在奖励方法的局限与安全区 - 内在奖励方法利用模型内在信号构造代理奖励,训练前期性能飙升,甚至一度超过有监督方法[7] - 但在早期训练性能飙升之后,继续训练会触发典型的奖励黑客行为:代理奖励持续上涨,真实性能却在崩溃[8] - 崩溃不可避免,只是时间问题,即使最稳定的配置也撑不过几个epoch,这可能不是工程问题,而是数学必然[14] - 崩溃有适用范围,当训练数据足够少时,内在奖励方法展现出稳定性,例如在Test-Time Training场景中[16] - 在极端实验中,使用32条模型全错的样本作为训练集,OOD测试集上的性能依然在稳定提升,说明内在奖励是在教模型“更相信自己”,而非“什么是对的”[16][17] 模型可训练性预判指标 - 研究者找到了一个“预言指标”,可以在大规模训练前预判模型的可训练性,无需跑完整条训练曲线[4] - 该指标是模型坍塌步数,用于测量一个模型在内在奖励训练下能撑多少步才完全崩溃[20] - 逻辑在于,如果崩溃越晚,说明模型的初始先验越好,其本身掌握更多正确知识,只是不够自信[20] - 例如,Qwen这种公认“适合RL”的模型系列,在内在奖励下撑得更久[20] - 该指标无需任何真实标注,预测准确率超过传统的pass@k方法[20][23] 外部奖励方法的潜力与方向 - 当内在奖励受限于模型自身的回声时,外部奖励方法开始展现不同图景[4] - 外部奖励方法利用生成与验证的不对称性来锚定奖励,正在突破内在奖励的天花板,让无监督强化学习真正走向可扩展[4] - 外部奖励方法归纳为两类:利用无标注数据从海量语料中挖掘奖励信号;利用生成-验证不对称性,让模型生成答案后用外部工具验证并提供环境反馈[25][27] - 初步测试的自验证方法展现出一条截然不同的曲线:持续改进,没有崩溃,因为奖励来自“答案能否通过客观验证”,而非“模型有多自信”[27] - 内在奖励追问“你相信自己吗”,外部奖励追问“这是真的吗”,通往可扩展的无监督强化学习,答案或许在后者[28] 技术路径的总结与展望 - 研究描绘了无监督强化学习的边界,其价值在于回答“在什么条件下,哪条路通”[29] - 一个系统能否通过审视自己而变得更好,取决于它最初的判断有多准确[29] - 内在奖励方法失败的原因恰恰是它们成功的原因,都是同一个机制:自我强化,区别在于被强化的是真理还是偏见[29] - 认清内在奖励的宿命,才真正看清外部奖励的星辰大海[29] - 内在与外部奖励不是对立,而是工具箱里的不同工具,认清边界是为了在边界内自由创造,在边界外寻找新的可能[30]