Workflow
大模型推理可靠性
icon
搜索文档
面对无解问题大模型竟会崩溃?港中文&华为联合提出首个大模型推理可靠性评估基准
机器之心· 2025-07-16 16:09
研究背景 - 以DeepSeek-r1为代表的大模型在推理任务上展现强大性能,但面对无解问题时会产生虚构信息,导致事实错误和资源浪费[2] - 可靠模型应对可解问题给出正确答案,对不可解问题指出无解或选择拒答以避免误导用户[4] - 港中文和华为诺亚实验室联合提出ReliableMath基准,持续更新最新模型测试结果,包括Qwen3、豆包、Gemini等[5] 可靠性评估准则 - 将问题分为可解(A)和不可解(U),模型回复分为成功(S)、拒答(R)和失败(F)[7] - 使用精度(Prec)和谨慎度(Prud)评估可靠性,优先看精度,其次看谨慎度[8] - 成功表示对可解问题匹配正确答案或对不可解问题指出无解,拒答表示回复"我不知道"[7] ReliableMath数据集 - 首个高质量数学无解问题集,包含可解和不可解问题[11] - 可解问题从开源数学问题集收集,不可解问题通过改写可解问题构造[12] - 构造流程包括改写、模型验证和人工验证三步,确保高质量无解问题[14] - 包含不同难度数学任务,如AIME、AMC、Minerva和MATH,并对无解难度进行标注[16] 实验分析 - 标准提示下模型几乎不具备拒答或指出不可解的能力,可靠性极差[19] - 加入允许拒答的提示后,不可解问题可靠性明显提升,生成序列长度下降[19] - 大模型使用可靠提示后慢思考模型可靠性普遍高于快思考模型,小模型仍有提升空间[19] - 移除必要条件构造的不可解问题可靠性偏低,模型倾向于假设缺失条件虚构答案[20] - 难度为1的不可解问题可靠性偏低,需要经过推理才能发现问题无解[20] 可靠性对齐 - 提出提高可靠性的对齐策略,在开源训练集上构造无解问题[23] - 在强模型上蒸馏获得成功回复,小模型上自采样获得拒答回复,使用监督学习训练[23] - 对齐后小模型的可靠性得到显著提升[23] 研究展望 - 提出首个大模型推理任务可靠性基准,希望引发更多对推理模型可靠性的关注[26]