大模型推理质量评估 - 财报，业绩电话会，研报，新闻

大模型推理质量评估

搜索文档

TRM思考奖励模型上线，大模型推理质量终于能量化了 | ICML‘26 Oral

量子位· 2026-06-24 12:01

TRM团队投稿量子位 | 公众号 QbitAI 大模型推理能力越来越强，但答案对了，思考过程就一定好吗？就像是同一道数学题，两个学生都做对了。一个步骤干净、推导紧凑、思路顺畅；另一个绕了大段无关推导，跳过关键步骤，最后却也凑出了正确答案。只看结果，两份答卷都对。但若要选一份更值得学习的解题过程，显然是前者。大模型推理也面临类似问题。模型在给出最终回答前，往往会生成一段动辄数千甚至上万token的reasoning trace：里面有探索、反思、修正，也有重复打转、跳步，以及看似完整却经不起推敲的"伪证"。可绝大多数评测和奖励信号，只看最终答案对不对，这就悄悄抹平了"思考过程的高下"。什么样的思考过程算好？一段自由形式的推理链，如何被稳定评估？这种评估信号，又能否反过来帮助模型学会更好的推理方式？针对这一问题，来自上海人工智能实验室、上海交通大学、香港中文大学的研究团队提出了 TRM（Thinking Reward Model）：不再只看大模型"答没答对"，而是直接给它的推理过程打分，把"想得好"变成可度量、可训练、可优化的能力。为什么"答案对不对"已经不够用了？过去很多大模型评测 ...

大模型推理质量评估

Artificial Intelligence

TRM（Thinking Reward Model）

大模型推理质量评估

Artificial Intelligence

TRM（Thinking Reward Model）