无监督强化学习 - 财报，业绩电话会，研报，新闻

无监督强化学习

搜索文档

ICLR 2026 | 大模型的无监督强化学习能走多远？清华团队给出了系统性答案

机器之心· 2026-03-21 11:27

强化学习技术范式演进 - 强化学习正在重塑大模型能力边界，OpenAI o3、DeepSeek-R1、Gemini 3等顶尖模型正使用大规模RLVR刷新推理任务天花板[3] - 纯监督式训练不可持续，人工标注成本指数级增长，在专业领域获取可靠标注越来越难，当模型能力逼近或超越人类专家时面临评分难题[3] - 无监督RLVR应运而生，旨在让模型在没有人工标注的情况下持续进化，这被视为降本增效和通往超级智能的必经之路[3] 无监督RLVR的内在机制与核心发现 - 研究发现，所有基于模型自身信号的内在奖励方法都遵循相似轨迹：训练初期性能快速攀升，但到达某个临界点后开始不可逆地滑落[4] - 这不是某个方法的缺陷，而是机制的宿命，其本质都在锐化模型已有的偏好，像一个回声室，让模型不断重复自己最初相信的东西[4] - 内在奖励方法的成败取决于模型“置信度-正确性”的对齐程度，即模型先验[14] - 如果模型初始倾向正确，锐化有效，性能提升；如果模型初始倾向错误，锐化有害，加速崩溃[14][18] - 在小规模测试时训练场景中，内在奖励方法能稳定提升性能，即使模型一开始全是错的，也能在自我纠偏中进化[4][16] 内在奖励方法的局限与安全区 - 内在奖励方法利用模型内在信号构造代理奖励，训练前期性能飙升，甚至一度超过有监督方法[7] - 但在早期训练性能飙升之后，继续训练会触发典型的奖励黑客行为：代理奖励持续上涨，真实性能却在崩溃[8] - 崩溃不可避免，只是时间问题，即使最稳定的配置也撑不过几个epoch，这可能不是工程问题，而是数学必然[14] - 崩溃有适用范围，当训练数据足够少时，内在奖励方法展现出稳定性，例如在Test-Time Training场景中[16] - 在极端实验中，使用32条模型全错的样本作为训练集，OOD测试集上的性能依然在稳定提升，说明内在奖励是在教模型“更相信自己”，而非“什么是对的”[16][17] 模型可训练性预判指标 - 研究者找到了一个“预言指标”，可以在大规模训练前预判模型的可训练性，无需跑完整条训练曲线[4] - 该指标是模型坍塌步数，用于测量一个模型在内在奖励训练下能撑多少步才完全崩溃[20] - 逻辑在于，如果崩溃越晚，说明模型的初始先验越好，其本身掌握更多正确知识，只是不够自信[20] - 例如，Qwen这种公认“适合RL”的模型系列，在内在奖励下撑得更久[20] - 该指标无需任何真实标注，预测准确率超过传统的pass@k方法[20][23] 外部奖励方法的潜力与方向 - 当内在奖励受限于模型自身的回声时，外部奖励方法开始展现不同图景[4] - 外部奖励方法利用生成与验证的不对称性来锚定奖励，正在突破内在奖励的天花板，让无监督强化学习真正走向可扩展[4] - 外部奖励方法归纳为两类：利用无标注数据从海量语料中挖掘奖励信号；利用生成-验证不对称性，让模型生成答案后用外部工具验证并提供环境反馈[25][27] - 初步测试的自验证方法展现出一条截然不同的曲线：持续改进，没有崩溃，因为奖励来自“答案能否通过客观验证”，而非“模型有多自信”[27] - 内在奖励追问“你相信自己吗”，外部奖励追问“这是真的吗”，通往可扩展的无监督强化学习，答案或许在后者[28] 技术路径的总结与展望 - 研究描绘了无监督强化学习的边界，其价值在于回答“在什么条件下，哪条路通”[29] - 一个系统能否通过审视自己而变得更好，取决于它最初的判断有多准确[29] - 内在奖励方法失败的原因恰恰是它们成功的原因，都是同一个机制：自我强化，区别在于被强化的是真理还是偏见[29] - 认清内在奖励的宿命，才真正看清外部奖励的星辰大海[29] - 内在与外部奖励不是对立，而是工具箱里的不同工具，认清边界是为了在边界内自由创造，在边界外寻找新的可能[30]