Workflow
OpenAI罕见发论文:我们找到了AI幻觉的罪魁祸首
36氪·2025-09-06 11:52

文章核心观点 - 大型语言模型普遍存在“幻觉”问题,即模型自信地生成不真实答案 [1] - 幻觉的根本原因在于标准训练和评估程序更倾向于奖励猜测行为,而非对不确定性的承认 [1] - OpenAI发表系统性论文揭示幻觉根源,指出当前评估方法的激励机制是问题关键 [3][6] - 修改评估指标,对自信错误施以更大惩罚并对恰当表达不确定性给予部分加分,是降低幻觉的可行路径 [12][13] 幻觉的定义与表现 - 幻觉被定义为语言模型生成的看似合理但却错误的陈述 [4] - 即使对于简单问题,模型也可能自信地给出多个不同但均为错误的答案,例如关于人物博士论文标题和生日的提问 [4][5] 幻觉的根源:训练与评估机制 - 当前基于准确度的评估方法设置了错误激励机制,鼓励模型猜测而非承认不确定性 [6] - 类比多项选择题测试,猜测有概率得分,而弃权则必定得零分,导致猜测型模型在记分牌上表现更优 [6] - 大多数基准测试采用二分法评分(对/错),未对“我不知道”这类弃权答案给予任何分数 [9][10] - 主要评估指标持续奖励幸运猜测,导致模型学习猜测行为,即使模型变得更先进,幻觉依然存在 [11] OpenAI的解决方案与发现 - 提出应对自信错误施以比不确定性更大的惩罚,并对恰当表达不确定性给予部分加分 [12] - 幻觉源于预训练阶段的下一个词预测任务,该任务缺乏“真/假”标签,模型需近似整体分布,对于任意低频事实难以仅凭模式预测,从而导致错误 [14][15] - 准确度永远不会达到100%,因部分现实世界问题本质无法回答,但幻觉并非不可避免,模型可选择在不确定时放弃回答 [16][17][18][19] - 小型模型可能更容易了解自身局限性并直接承认不知道,而具备部分知识的模型则需确定置信度,校准所需计算量小于保持准确 [19] 行业影响与公司动向 - OpenAI最新的模型幻觉率更低,公司将继续努力降低语言模型输出的置信错误率 [21] - OpenAI重组其模型行为团队,该团队现向后期训练主管汇报,原团队负责人将启动新项目oai Labs,专注于发明人机协作新界面原型 [21]