Workflow
数据驱动对齐
icon
搜索文档
人机协同筛出2600万条数据,七项基准全部SOTA,昆仑万维开源奖励模型再迎新突破
机器之心· 2025-07-04 10:36
机器之心报道 编辑:杜伟、泽南 大语言模型(LLM)以生成能力强而著称,但如何能让它「听话」,是一门很深的学问。 基于人类反馈的强化学习(RLHF)就是用来解决这个问题的,其中的奖励模型 (Reward Model, RM)扮演着重要的裁判作用,它专门负责给 LLM 生成 的内容打分,告诉模型什么是好,什么是不好,可以保证大模型的「三观」正确。 因此,奖励模型对大模型能力来说举足轻重:它既需要能够准确进行评判,又需要足够通用化,覆盖多个知识领域,还需要具备灵活的判断能力,可以处理 多种输入,并具备足够的可扩展性。 7 月 4 日,国内 AI 科技公司昆仑万维发布了新一代奖励模型 Skywork-Reward-V2 系列,把这项技术的上限再次提升了一截。 Skywork-Reward-V2 系列共包含 8 个基于不同基座模型和不同大小的奖励模型,参数规模从 6 亿到 80 亿不等,它在七大主流奖励模型评测榜单上全部 获得了第一。 Skywork-Reward-V2 系列模型在主流基准上的成绩。 与此同时,该系列模型展现出了广泛的适用性,它在多个能力维度上表现出色,包括对人类偏好的通用对齐、客观正确性、安全性、风 ...