告别数据「噪音」，UCSD大模型推理新方法DreamPRM充当「信号放大器」，登顶MathVista测评榜

技术突破 - DreamPRM由加州大学圣地亚哥分校团队开发，在MathVista数学推理测评中排名第一，核心成员包括Qi Cao和Pengtao Xie等[1] - 采用双层优化框架动态调整数据域权重，抑制低质量数据影响，强化高信息密度数据域贡献，实现数据质量与覆盖率平衡[2] - 解决了多模态场景下分布偏移远超纯文本的问题，通过可学习参数优化数据域权重分布[4] 方法创新 - 构建可微分双层优化问题，下层在15个训练域上进行PRM参数训练，上层使用覆盖30学科183子领域的元数据集评估泛化能力[12][13] - 形成自适应正反馈循环：高质量推理数据域权重提升(如M3CoT达1.49)，简单样本域权重下降(如AI2D小于0.8)[14][20] - 蒙特卡洛监督信号计算中间推理步骤质量概率估计，使用域加权MSE损失更新模型参数[13] 性能表现 - 在MathVista测试中DreamPRM+o4-mini(8 CoTs)准确率达85.2%，显著超越人类基准60.3%和其他模型[6][16] - 五项基准测试全面领先：MathVista(57.4)、WeMath(68.9)、MathVision(22.1)、MMVET(61.4)、MMSTAR(62.3)[16] - 使80亿参数InternVL模型超越GPT-4v和Gemini-1.5等大型闭源模型，小模型实现大模型性能[16] 应用优势 - 通用框架可与任何多模态大语言模型集成，在o4-mini模型上准确率从80.6%提升至85.2%[6][17] - 候选推理链数量增加带来持续性能提升，从k=1到k=8准确率增长3.6个百分点[17][19] - 细粒度过程监督机制超越自洽性校验等传统方法，验证逐步评分的关键作用[16] 研究成果 - 论文标题为《DreamPRM: Domain-Reweighted Process Reward Model for Multimodal Reasoning》，已在arXiv发布[7] - 代码开源在GitHub平台，项目地址为github.com/coder-qicao/DreamPRM[7] - 方法平均提升基础模型性能4%，在高难度数学推理任务表现尤为突出[22]