实例级重加权

搜索文档
登顶多模态推理榜MMMU,UCSD新方法超越GPT-5、Gemini
36氪· 2025-09-19 14:58
【导读】DreamPRM由加州大学圣地亚哥分校的研究团队开发,在数学推理权威测评榜MMMU上获得了第一名。 近年来,大语言模型(LLM)在推理能力上的进展显著,其中过程奖励模型(Process Reward Model, PRM)的提出,使 得模型能够在推理链条的中间步骤获得监督,从而更稳健地选择合理的解题路径。 这类方法在文本推理任务中已经取得了良好效果,但在扩展至多模态场景 时,仍然面临两个突出挑战: 因此,如何在多模态推理中有效利用高质量样本,抑制噪声样本的负面影响,成为亟需解决的问题。 针对于此,研究人员设计了新的训练框架,通过双层优化框架,将数据样本的权重(Instance Weights)作为可学习参数, 动态改变数据样本的在训练中的影响。 论文地址:https://arxiv.org/abs/2509.05542 代码地址:https://github.com/coder-qicao/DreamPRM-1.5 | Reset | | | MMMU-Pro | MMMU(Val) | | --- | --- | --- | --- | --- | | Name | Size | Date | Ov ...