文章核心观点 - 当前评估大语言模型能力的标准,特别是基于准确性的二元评分体系,是导致模型产生“幻觉”(即自信地生成看似合理但错误的信息)的系统性原因 [3][7] - 通过改变评估机制,例如采用“开放式评分标准”明确告知模型评分规则,可以在不牺牲准确率的前提下有效减少幻觉,提高模型在关键应用中的可靠性 [10][11][13] 大语言模型“幻觉”问题的根源 - “幻觉”现象指大语言模型有时会产生自信且看似合理但错误的信息,这限制了其可靠性,即便在最先进的模型中依然存在 [1] - 根源一:预训练阶段的统计压力,模型通过“下一个词预测”训练,对训练数据中只出现一次的罕见事实“记忆”天生不靠谱,错误率高 [6] - 根源二:评估阶段的系统性激励,主流评估采用二元评分(答对得1分,答错或放弃得0分),这鼓励模型猜测而非承认不知道,放弃回答永远是最差选择 [7] - 在SimpleQA评估中,OpenAI的o4-mini模型因几乎回答所有问题(错误率超过3/4)而得分高于更谨慎、常选择放弃的GPT-5-mini,凸显了评估标准的问题 [7] 提出的解决方案:开放式评分标准 - 解决方案是在提问时明确告知模型评分规则,例如“正确答案得1分,错误答案得-1分”或“只有完全正确的答案才能得分”,让模型能根据规则调整回答策略 [10] - 在Google的Gemini 3 Pro、OpenAI的GPT-5、xAI的Grok 4及Anthropic的Claude Opus 4.5上的实验显示,采用此标准后,所有模型都能根据错误惩罚程度调整猜测倾向,惩罚越重,放弃回答的情况越多 [10] - 在此评估体系下,减少幻觉的技术不再需要以降低准确率为代价,模型可以既展示知识,又在适当时候保持谨慎 [11] 对人工智能行业发展的启示 - 如何评估AI决定了AI如何行为,当前以准确率等指标主导的开发过程,若指标本身鼓励不良行为,则技术进步可能被评估体系抵消 [13] - 提高AI可靠性不仅是建模问题,更是评估机制设计问题,应修改评估方式以激励模型在适当时承认不确定性,而非仅仅增加反幻觉测试 [13] - 随着大语言模型在医疗、法律、金融等关键领域应用日益广泛,设计更聪明的评估方式对解决幻觉问题、提升模型可靠性至关重要 [13]
OpenAI发表Nature论文:揭开AI模型总“说谎”的真相,人类对AI准确性的评估促使其产生幻觉
生物世界·2026-04-25 16:46