大语言模型奖励模型技术进展 - 奖励模型在RLHF中扮演关键裁判角色,通过打分机制确保大模型输出符合人类价值观[2] - 理想奖励模型需具备准确评判、多领域覆盖、灵活处理多种输入及高度可扩展性[3] - 昆仑万维发布新一代Skywork-Reward-V2系列,包含8个不同参数规模模型(6亿至80亿参数)[4][5] - 该系列在七大主流评测榜单均获第一,展现对人类偏好对齐、安全性、抗风格偏差等维度的优异表现[5][7] 技术突破与创新 - 构建4000万对偏好样本数据集Skywork-SynPref-40M,采用人机协同两阶段迭代流水线[17][19] - 第一阶段通过"金标准锚定+银标准扩展"双轨机制突破初始数据瓶颈[20] - 第二阶段通过奖励模型一致性过滤实现自动化大规模数据扩展[22][23] - 最终精选2600万条数据,实现规模与质量的平衡,人工标注负担显著降低[25] - 数据质量提升使小参数模型(如0.6B)性能接近上一代27B模型,参数差距达45倍仍保持竞争力[31] 性能表现与行业影响 - 在RewardBench等七大基准测试中全面超越现有模型,最高平均得分达88.6分[29][30] - 8B参数模型Skywork-Reward-V2-Llama-3.1-8B-40M在JudgeBench知识密集型任务超越Claude-3.7-Sonnet等闭源模型[32][36] - PPE Correctness基准上全系模型在有用性和无害性指标最高领先GPT-4o达20分[37][38] - 仅使用1.8%高质量数据(约29万条)训练的8B模型性能即超越当前70B级SOTA模型[42] 行业技术发展趋势 - 数据工程策略作用凸显,高质量训练数据可支撑"小模型超越大模型"的效果[34] - 奖励模型从弱监督评分器向强泛化价值建模器演进,在多维偏好理解中承担核心角色[35][44] - 人机协同数据构建范式将加速RLHF技术迭代,推动"数据驱动对齐"技术发展[45][47] - 开源策略有望促进行业整体进步,昆仑万维同期还开源了代码智能体、空间智能等多领域模型[48]
人机协同筛出2600万条数据,七项基准全部SOTA,昆仑万维开源奖励模型再迎新突破