Workflow
Reward Model
icon
搜索文档
北大腾讯突破奖励模型瓶颈!让AI理解人类偏好,泛化能力比肩GPT-4.1
量子位· 2025-06-26 10:11
核心观点 - RewardAnything通过自然语言描述的评判原则实现奖励模型从"死记硬背"到"融会贯通"的范式跃迁 [1] - 该方法突破传统奖励模型需收集偏好数据训练的高成本瓶颈 直接利用自然语言作为RLHF标准 [2] - 在RABench基准测试中展示出与GPT-4 1相媲美的原则跟随能力与泛化能力 [2][28] 技术突破 传统奖励模型缺陷 - 当前最先进奖励模型在抵抗格式偏见测试中准确率仅46 6% 低于随机猜测水平 [4] - 存在"长回答=好回答"和"好格式=好答案"等虚假关联 学习相关性而非因果性 [6][8] - 评估过程单一价值观导向 难以衡量对多样化原则的理解能力 [9] RewardAnything创新 - 采用"原则跟随"范式 通过自然语言直接定义评判标准 [10][12] - 列表式评分技术单次调用可完成10个候选回答评估 计算效率较传统两两比较提升45倍 [14] - 引入GRPO算法训练 强化模型对原则遵守情况的相对质量辨别能力 [16] 性能表现 基准测试结果 - 在RM-Bench"困难"设置中总体得分86 4% 显著超越GPT-4 1(77 4%)和Gemini 2 5 Pro(57 9%) [19] - 在安全领域测试中保持高拒绝率(84 4%)的同时提升建设性回复比例 [19][33] - RABench测试包含1002个验证排序列表 相当于31 806个传统偏好对 覆盖5大文本质量维度 [27] 应用案例 - 仅用2000个未标注prompt和自然语言原则即实现Qwen3-8B模型安全对齐 [30] - 对齐后模型在XSTest中错误拒绝率降低 MT-Bench文本质量评分显著提升 [33] - 验证了"原则驱动"对齐范式相比传统"数据驱动"方法的效率优势 [34]