Workflow
过程奖励模型
icon
搜索文档
告别数据「噪音」,UCSD大模型推理新方法DreamPRM充当「信号放大器」,登顶MathVista测评榜
机器之心· 2025-07-10 18:49
DreamPRM 由加州大学圣地亚哥分校的研究团队开发,在数学推理权威测评榜MathVista上获得了第一 名。 第一作者为博士生 Qi Cao,通讯作者为该校副教授 Pengtao Xie,团队其他成员还包括王睿一, Ruiyi Zhang 和 Sai Ashish Somayajula。 由于多模态输入(图像 + 文本)构成高维连续与离散信号的混合空间,训练数据与测试数据的分 布偏移(Distribution Shift)远超纯文本场景,导致一般过程奖励模型泛化能力显著下降。 数据集质量失衡。现有开源多模态推理数据集存在大量低价值样本,如冗余模态与低难度问题。 若直接用于训练,噪声数据会稀释过程奖励模型对关键推理步骤(如跨模态逻辑衔接)的监督信 号。 使用过程奖励模型(PRM)强化大语言模型的推理能力已在纯文本任务中取得显著成果,但将过程奖 励模型扩展至多模态大语言模型(MLLMs)时,面临两大难题: 针对上述问题,我们通过双层优化框架,将数据域权重(Domain Weights)作为可学习参数,动态抑 制低质量数据域的影响,同时强化高信息密度数据域(如需要多步跨模态推理的 M3CoT 数据集)的贡 献, ...
Cursor技术负责人详解AI编程三大难题:奖励信号、过程优化与经验积累 | Jinqiu Select
锦秋集· 2025-05-31 10:37
AI编程的下一步在哪里?Cursor技术负责人的深度思考 让AI生成看起来像代码的文本很容易,但让它真正理解问题、选择合适的工具、经过多轮调试最终解决实际 需求——这才是真正的编程,也是整个行业正在努力突破的方向。 在最新访谈中,Cursor的技术负责人深入剖析了AI编程的根本性困境。 https://www.youtube.com/watch?v=sLaxGAL_Pl0&t=21s Cursor认为,AI编程不只是生成语法正确的代码片段,而是要完成一个复杂的认知过程。 编程与数学等领域的根本区别在于"动作空间"的庞大。解数学题时,模型可以通过推理逐步逼近答案,但在编 程中,推理过程本身就已经嵌入在代码里。更关键的是,真正的编程需要"编写代码→调用工具→获取反馈→ 调整代码"的多轮迭代。 奖励信号的设计成为核心难题。用"通过测试"作为奖励看似合理,但模型会找捷径绕过核心逻辑。它生成了能 运行的代码,却没有真正理解和解决问题。即使加入代码质量等多维度指标,稀疏奖励的问题依然存在——复 杂任务可能需要上千次尝试才获得一次成功信号。 业界寄予厚望的过程奖励模型(PRMs)同样遭遇挫折。这种试图在每一步都给出评分的方 ...