策略判别学习

搜索文档
奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式
量子位· 2025-07-11 12:00
允中 发自 凹非寺 量子位 | 公众号 QbitAI 强化学习改变了大语言模型的后训练范式,可以说,已成为AI迈向AGI进程中的关键技术节点。 然而,其中 奖励模型 的设计与训练,始终是制约后训练效果、模型能力进一步提升的瓶颈所在。 当前,大模型在 Next Token Prediction 和 Test-time Scaling 两种扩展范式下,通过大规模的数据和模型扩展,实现了能力的持续跃 升。但相比之下,奖励模型缺乏系统性的预训练和扩展方法,导致其能力难以随计算量增长而持续提升,成为阻碍强化学习链路进一步扩展的 短板。 如何解决? 现在,来自上海人工智能实验室的研究团队提出了一种新的思路: 回答三: 彩虹是阳光通过空气中的水滴折射和反射后形成的。生活中我们经常在雨后或喷泉、水幕附近看到彩虹,有时候还会看到双彩虹甚至三重彩 虹呢!不过很可惜,彩虹本身只是光学现象,没法真正走近摸到。 对于这种开放问题,不同的用户可能会偏向不同风格的回复。此时,传统奖励模型的"绝对偏好"无法灵活应对不同的定制化场景。 而POLAR 只需要根据不同的参考回复,即可为三种回答给出不同的偏序关系,无需重新训练奖励模型 。 他们找到 ...