OpenAI发表Nature论文：揭开AI模型总“说谎”的真相，人类对AI准确性的评估促使其产生幻觉

文章核心观点 - 当前评估大语言模型能力的标准，特别是基于准确性的二元评分体系，是导致模型产生“幻觉”（即自信地生成看似合理但错误的信息）的系统性原因 [3][7] - 通过改变评估机制，例如采用“开放式评分标准”明确告知模型评分规则，可以在不牺牲准确率的前提下有效减少幻觉，提高模型在关键应用中的可靠性 [10][11][13] 大语言模型“幻觉”问题的根源 - “幻觉”现象指大语言模型有时会产生自信且看似合理但错误的信息，这限制了其可靠性，即便在最先进的模型中依然存在 [1] - 根源一：预训练阶段的统计压力，模型通过“下一个词预测”训练，对训练数据中只出现一次的罕见事实“记忆”天生不靠谱，错误率高 [6] - 根源二：评估阶段的系统性激励，主流评估采用二元评分（答对得1分，答错或放弃得0分），这鼓励模型猜测而非承认不知道，放弃回答永远是最差选择 [7] - 在SimpleQA评估中，OpenAI的o4-mini模型因几乎回答所有问题（错误率超过3/4）而得分高于更谨慎、常选择放弃的GPT-5-mini，凸显了评估标准的问题 [7] 提出的解决方案：开放式评分标准 - 解决方案是在提问时明确告知模型评分规则，例如“正确答案得1分，错误答案得-1分”或“只有完全正确的答案才能得分”，让模型能根据规则调整回答策略 [10] - 在Google的Gemini 3 Pro、OpenAI的GPT-5、xAI的Grok 4及Anthropic的Claude Opus 4.5上的实验显示，采用此标准后，所有模型都能根据错误惩罚程度调整猜测倾向，惩罚越重，放弃回答的情况越多 [10] - 在此评估体系下，减少幻觉的技术不再需要以降低准确率为代价，模型可以既展示知识，又在适当时候保持谨慎 [11] 对人工智能行业发展的启示 - 如何评估AI决定了AI如何行为，当前以准确率等指标主导的开发过程，若指标本身鼓励不良行为，则技术进步可能被评估体系抵消 [13] - 提高AI可靠性不仅是建模问题，更是评估机制设计问题，应修改评估方式以激励模型在适当时承认不确定性，而非仅仅增加反幻觉测试 [13] - 随着大语言模型在医疗、法律、金融等关键领域应用日益广泛，设计更聪明的评估方式对解决幻觉问题、提升模型可靠性至关重要 [13]