过程奖励模型

搜索文档
登顶多模态推理榜MMMU,UCSD新方法超越GPT-5、Gemini
36氪· 2025-09-19 14:58
【导读】DreamPRM由加州大学圣地亚哥分校的研究团队开发,在数学推理权威测评榜MMMU上获得了第一名。 近年来,大语言模型(LLM)在推理能力上的进展显著,其中过程奖励模型(Process Reward Model, PRM)的提出,使 得模型能够在推理链条的中间步骤获得监督,从而更稳健地选择合理的解题路径。 这类方法在文本推理任务中已经取得了良好效果,但在扩展至多模态场景 时,仍然面临两个突出挑战: 因此,如何在多模态推理中有效利用高质量样本,抑制噪声样本的负面影响,成为亟需解决的问题。 针对于此,研究人员设计了新的训练框架,通过双层优化框架,将数据样本的权重(Instance Weights)作为可学习参数, 动态改变数据样本的在训练中的影响。 论文地址:https://arxiv.org/abs/2509.05542 代码地址:https://github.com/coder-qicao/DreamPRM-1.5 | Reset | | | MMMU-Pro | MMMU(Val) | | --- | --- | --- | --- | --- | | Name | Size | Date | Ov ...
告别数据「噪音」,UCSD大模型推理新方法DreamPRM充当「信号放大器」,登顶MathVista测评榜
机器之心· 2025-07-10 18:49
技术突破 - DreamPRM由加州大学圣地亚哥分校团队开发,在MathVista数学推理测评中排名第一,核心成员包括Qi Cao和Pengtao Xie等[1] - 采用双层优化框架动态调整数据域权重,抑制低质量数据影响,强化高信息密度数据域贡献,实现数据质量与覆盖率平衡[2] - 解决了多模态场景下分布偏移远超纯文本的问题,通过可学习参数优化数据域权重分布[4] 方法创新 - 构建可微分双层优化问题,下层在15个训练域上进行PRM参数训练,上层使用覆盖30学科183子领域的元数据集评估泛化能力[12][13] - 形成自适应正反馈循环:高质量推理数据域权重提升(如M3CoT达1.49),简单样本域权重下降(如AI2D小于0.8)[14][20] - 蒙特卡洛监督信号计算中间推理步骤质量概率估计,使用域加权MSE损失更新模型参数[13] 性能表现 - 在MathVista测试中DreamPRM+o4-mini(8 CoTs)准确率达85.2%,显著超越人类基准60.3%和其他模型[6][16] - 五项基准测试全面领先:MathVista(57.4)、WeMath(68.9)、MathVision(22.1)、MMVET(61.4)、MMSTAR(62.3)[16] - 使80亿参数InternVL模型超越GPT-4v和Gemini-1.5等大型闭源模型,小模型实现大模型性能[16] 应用优势 - 通用框架可与任何多模态大语言模型集成,在o4-mini模型上准确率从80.6%提升至85.2%[6][17] - 候选推理链数量增加带来持续性能提升,从k=1到k=8准确率增长3.6个百分点[17][19] - 细粒度过程监督机制超越自洽性校验等传统方法,验证逐步评分的关键作用[16] 研究成果 - 论文标题为《DreamPRM: Domain-Reweighted Process Reward Model for Multimodal Reasoning》,已在arXiv发布[7] - 代码开源在GitHub平台,项目地址为github.com/coder-qicao/DreamPRM[7] - 方法平均提升基础模型性能4%,在高难度数学推理任务表现尤为突出[22]