Workflow
双层优化框架
icon
搜索文档
告别数据「噪音」,UCSD大模型推理新方法DreamPRM充当「信号放大器」,登顶MathVista测评榜
机器之心· 2025-07-10 18:49
DreamPRM 由加州大学圣地亚哥分校的研究团队开发,在数学推理权威测评榜MathVista上获得了第一 名。 第一作者为博士生 Qi Cao,通讯作者为该校副教授 Pengtao Xie,团队其他成员还包括王睿一, Ruiyi Zhang 和 Sai Ashish Somayajula。 由于多模态输入(图像 + 文本)构成高维连续与离散信号的混合空间,训练数据与测试数据的分 布偏移(Distribution Shift)远超纯文本场景,导致一般过程奖励模型泛化能力显著下降。 数据集质量失衡。现有开源多模态推理数据集存在大量低价值样本,如冗余模态与低难度问题。 若直接用于训练,噪声数据会稀释过程奖励模型对关键推理步骤(如跨模态逻辑衔接)的监督信 号。 使用过程奖励模型(PRM)强化大语言模型的推理能力已在纯文本任务中取得显著成果,但将过程奖 励模型扩展至多模态大语言模型(MLLMs)时,面临两大难题: 针对上述问题,我们通过双层优化框架,将数据域权重(Domain Weights)作为可学习参数,动态抑 制低质量数据域的影响,同时强化高信息密度数据域(如需要多步跨模态推理的 M3CoT 数据集)的贡 献, ...