Workflow
奖励模型
icon
搜索文档
奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式
量子位· 2025-07-11 12:00
强化学习与奖励模型 - 强化学习已成为AI迈向AGI进程中的关键技术节点,改变了大语言模型的后训练范式 [1] - 奖励模型的设计与训练是制约后训练效果和模型能力提升的瓶颈,缺乏系统性的预训练和扩展方法 [2] - 传统奖励模型基于绝对偏好,难以灵活应对不同定制化场景 [7] POLAR新范式 - POLAR是一种与绝对偏好解耦的奖励建模新范式,具备可扩展性和强泛化能力 [3] - POLAR根据参考答案为模型输出打分,可灵活适配不同风格的定制化需求 [5][7] - POLAR能处理开放问题和闭式问题,提供细粒度的偏好区分 [11] - POLAR完美契合强化微调框架(RFT),使通用场景应用成为可能 [14] POLAR训练方法 - POLAR通过对比学习衡量训练策略与目标策略之间的距离作为奖励信号 [21] - 预训练阶段使用自动化合成数据构建,从131个Base LLM和53个Chat LLM中采样 [22] - POLAR-1.8B使用0.94T Token预训练数据,POLAR-7B使用3.6T Token [23] - 预训练后使用少量偏好数据对齐人类偏好 [23][24] POLAR性能表现 - POLAR展现出Scaling效应,验证集损失随模型参数和计算量增加呈幂律关系下降 [28][29] - POLAR-1.8B在STEM任务中超越最佳基线24.9个百分点,POLAR-7B超越26.2个百分点 [32] - POLAR-1.8B仅1.8B参数即可与27B和72B参数的奖励模型相当 [32] - POLAR-7B微调的Llama-3.1-8B在所有基准测试中平均提升9.0% [34]
人机协同筛出2600万条数据,七项基准全部SOTA,昆仑万维开源奖励模型再迎新突破
机器之心· 2025-07-04 10:36
大语言模型奖励模型技术进展 - 奖励模型在RLHF中扮演关键裁判角色,通过打分机制确保大模型输出符合人类价值观[2] - 理想奖励模型需具备准确评判、多领域覆盖、灵活处理多种输入及高度可扩展性[3] - 昆仑万维发布新一代Skywork-Reward-V2系列,包含8个不同参数规模模型(6亿至80亿参数)[4][5] - 该系列在七大主流评测榜单均获第一,展现对人类偏好对齐、安全性、抗风格偏差等维度的优异表现[5][7] 技术突破与创新 - 构建4000万对偏好样本数据集Skywork-SynPref-40M,采用人机协同两阶段迭代流水线[17][19] - 第一阶段通过"金标准锚定+银标准扩展"双轨机制突破初始数据瓶颈[20] - 第二阶段通过奖励模型一致性过滤实现自动化大规模数据扩展[22][23] - 最终精选2600万条数据,实现规模与质量的平衡,人工标注负担显著降低[25] - 数据质量提升使小参数模型(如0.6B)性能接近上一代27B模型,参数差距达45倍仍保持竞争力[31] 性能表现与行业影响 - 在RewardBench等七大基准测试中全面超越现有模型,最高平均得分达88.6分[29][30] - 8B参数模型Skywork-Reward-V2-Llama-3.1-8B-40M在JudgeBench知识密集型任务超越Claude-3.7-Sonnet等闭源模型[32][36] - PPE Correctness基准上全系模型在有用性和无害性指标最高领先GPT-4o达20分[37][38] - 仅使用1.8%高质量数据(约29万条)训练的8B模型性能即超越当前70B级SOTA模型[42] 行业技术发展趋势 - 数据工程策略作用凸显,高质量训练数据可支撑"小模型超越大模型"的效果[34] - 奖励模型从弱监督评分器向强泛化价值建模器演进,在多维偏好理解中承担核心角色[35][44] - 人机协同数据构建范式将加速RLHF技术迭代,推动"数据驱动对齐"技术发展[45][47] - 开源策略有望促进行业整体进步,昆仑万维同期还开源了代码智能体、空间智能等多领域模型[48]
DeepSeek-R2为什么还没发?
量子位· 2025-06-27 16:09
DeepSeek-R2项目延期原因 - 核心观点:DeepSeek-R2因CEO对模型表现不满及算力资源短缺导致多次延期[1][2] - 研发受阻主因包括:英伟达H20芯片供应不足(R1训练消耗3万块H20、1万块H800和1万块H100)[3][4] 技术迭代与市场预期 - V3-0324版本升级被实测证实性能显著提升,引发市场对R2的早期预期(2023年12月V3发布后即开始酝酿)[5][6][7] - R1模型基于V3-Base架构开发,强化了V3与R系列的技术关联性[8][9] - 4月DeepSeek联合清华发布SPCT论文,提出通过在线RL优化奖励模型的方法,但未直接推动R2发布[12][13][14] 时间线与关键事件 - 原预期节奏:参照R1在V3发布1个月后上线,市场推测R2将于2024年4月面世[11] - 实际进展:4月仅泄露参数(传1.2T参数、5.2PB数据),5月发布解决硬件瓶颈的论文及R1-0528版本(LiveCodeBench表现接近OpenAI o3-high)[17][20][21][23][24] 行业反馈与技术推测 - 用户对延期态度分化:部分认为"值得等待",部分推测需等待V4版本发布[28][30] - 当前技术瓶颈:V3可能已达性能极限,需新一代基础模型支撑R2开发[31][32]