Workflow
POLAR
icon
搜索文档
奖励模型终于迎来预训练新时代!上海AI Lab、复旦POLAR,开启Scaling新范式
机器之心· 2025-07-10 12:26
大模型后训练阶段的奖励建模方法 - 强化学习是大模型后训练阶段提升能力、对齐人类偏好的核心方法,但奖励模型的设计与训练是关键瓶颈 [2] - 主流奖励建模方法包括"基于偏好的奖励建模"和"基于规则的验证",前者存在数据获取成本高、泛化能力有限问题,后者难以扩展到通用场景 [3] - 需要一种扩展方便、泛化性强、场景通用的奖励建模方案,类似大语言模型通过Next Token Prediction统一任务的思路 [4] POLAR奖励模型的核心创新 - POLAR采用策略判别学习(Policy Discriminative Learning)方法,通过衡量候选策略与最优策略之间的"距离"建立奖励信号,摆脱对绝对偏好的依赖 [8][9] - 利用对比学习建模策略分布差异,同一策略生成的轨迹作为正例,不同策略生成的轨迹作为负例 [10] - 预训练阶段完全使用自动化合成数据构建,POLAR-1.8B和POLAR-7B分别使用0.94T和3.6T Token数据 [14] POLAR的训练与应用效果 - 两阶段训练:预训练阶段使用Bradley-Terry Loss学习策略差异,微调阶段使用少量偏好数据对齐人类偏好 [14][15] - 在STEM任务中,POLAR-1.8B和POLAR-7B分别超越最佳基线24.9和26.2个百分点 [33] - 使用POLAR-7B微调的Llama-3.1-8B在所有基准测试中平均提升9.0%,相比WorldPM-72B-UltraFeedback优化结果提升6.7% [34] POLAR的技术优势与潜力 - 展现出与LLM类似的Scaling Laws,验证集损失随模型参数和计算量增加呈幂律关系下降 [35] - 1.8B参数的POLAR即可取得与15倍和40倍参数量的SOTA模型相当结果,显示强大潜力 [33] - 为通用RFT提供有效实践方案,有望打通RL链路扩展的最后一环 [37]