大模型推理质量评估
搜索文档
TRM思考奖励模型上线,大模型推理质量终于能量化了 | ICML‘26 Oral
量子位· 2026-06-24 12:01
TRM团队 投稿 量子位 | 公众号 QbitAI 大模型推理能力越来越强,但答案对了,思考过程就一定好吗? 就像是同一道数学题,两个学生都做对了。 一个步骤干净、推导紧凑、思路顺畅;另一个绕了大段无关推导,跳过关键步骤,最后却也凑出了正确答案。 只看结果,两份答卷都对。但若要选一份更值得学习的解题过程,显然是前者。 大模型推理也面临类似问题。 模型在给出最终回答前,往往会生成一段动辄数千甚至上万token的reasoning trace:里面有探索、反思、修正,也有重复打转、跳步,以及 看似完整却经不起推敲的"伪证"。 可绝大多数评测和奖励信号,只看最终答案对不对,这就悄悄抹平了"思考过程的高下"。 什么样的思考过程算好?一段自由形式的推理链,如何被稳定评估?这种评估信号,又能否反过来帮助模型学会更好的推理方式? 针对这一问题,来自上海人工智能实验室、上海交通大学、香港中文大学的研究团队提出了 TRM(Thinking Reward Model) : 不再只看大模型"答没答对",而是直接给它的推理过程打分,把"想得好"变成可度量、可训练、可优化的能力。 为什么"答案对不对"已经不够用了? 过去很多大模型评测 ...