Workflow
行为校准
icon
搜索文档
4B模型幻觉抑制能力超越GPT-5,CMU等提出行为校准强化学习新方法
机器之心· 2026-03-12 19:00
文章核心观点 - 研究团队提出了一种名为“行为校准强化学习”的新方法,通过重新设计奖励函数,从根本上解决大语言模型的幻觉问题,使模型学会在不确定时拒绝回答,成为“诚实的沟通者”而非“优秀的应试者”[2][7] - 该方法在多个基准测试上表现卓越,一个仅40亿参数的模型在幻觉抑制能力上超越了GPT-5等前沿大模型,证明了小模型也能实现优秀的置信度校准,且这种校准能力是一种可迁移、与预测准确率解耦的元技能[4][20][35][37] 核心问题与现有范式缺陷 - 当前主流的基于可验证奖励的强化学习后训练范式存在根本性的奖励错位问题:其二元奖励机制惩罚“拒绝回答”行为,迫使模型为最大化预期分数而进行猜测,将不确定性伪装成事实[6][7] 行为校准强化学习解决方案 - 解决方案核心思想是让模型根据用户指定的风险阈值动态调整其拒绝行为,成为一个值得信赖的模型[8][9] - 策略一:言语化置信度。通过将不同用户风险偏好下的奖励函数进行积分,将训练目标转化为对严格适当评分规则的优化,激励模型在最大化预测准确率的同时,校准其声明的置信度[9][10][11] - 策略二:Critic价值函数。使用PPO算法中Critic网络的价值函数作为隐式置信度估计器,其通过训练会收敛到成功概率[12] - 通过设计奖励函数(回答正确+1分,回答错误-1分,拒绝回答得-p分),使模型在置信度低于风险阈值时拒绝回答,从而实现从“应试者模式”到“完全诚实模式”的过渡[13] 声明级行为校准 - 研究将行为校准从响应级别扩展到声明级别,使模型能精确标注答案中单个不确定的推理步骤,而非简单地拒绝整个回答[14] - 面临并解决了三大挑战:1) 通过输出完整响应并用HTML标签高亮不确定声明来解决连贯性问题;2) 忽略中间推理过程,仅在最终结构化步骤上进行校准以处理歧义性;3) 设计基于弱监督的学习目标,将声明级置信度聚合成响应级置信度进行训练[14] - 探索了两种置信度聚合方式:乘积聚合与最小值聚合,实验发现最小值聚合在声明级评估中表现更优,能更有效激励模型识别推理链中的薄弱环节[15][19] 实验结果与性能评估 - 在极具挑战性的数学推理基准BeyondAIME上的响应级评估显示,采用言语化置信度、置信度乘积聚合的40亿参数模型取得了0.806的信噪比增益,大幅超越GPT-5的0.207[20][21] - 在BeyondAIME的声明级评估中,置信度最小聚合方法取得了0.301的信噪比增益,显著优于Gemini-2.5-Pro的0.019[22][23] - 置信度校准图显示,多数前沿模型的校准曲线接近水平线,缺乏“自知之明”,而经过行为校准训练的模型展现出单调递增的理想校准特性[24][25][27][29] - 核心评估指标包括:信噪比增益(衡量幻觉抑制效果)和置信度AUC(纯衡量模型“自知之明”),经过校准的模型在这些指标上表现优异[18][21] 行为校准的四个目标与泛化能力 - 系统满足行为校准的四个目标:1) 自适应风险(模型能根据用户风险阈值自动调整拒绝策略,呈现“凹形”拒绝曲线);2) 准确率保持(在不拒绝模式下,准确率与基线相当或更好);3) 幻觉减少(随着风险阈值增加,幻觉率单调递减,信噪比大幅提升);4) 定量校准(满足真阳性率与假阴性率的定量约束)[30][31][32][33] - 跨领域泛化实验表明,在数学数据上训练出的元认知能力可迁移至SimpleQA事实知识基准,进行零样本评估时信噪比显著优于基础模型,并与最强前沿模型相当,证明行为校准是一种与预测准确率解耦的可迁移技能[35] 研究启示与理论洞察 - 幻觉缓解与事实准确率是两种不同的能力,某些前沿模型的准确率与幻觉率或置信度校准之间并无正相关关系[36][37] - 小模型也能实现与大模型相当的置信度校准,实现有效“校准”所需的计算资源远低于追求绝对准确率所需的资源[37] - 行为校准是一种可通过训练改善的可学习属性,而非LLM不可避免的内置特性[37]