文章核心观点 - 大模型幻觉是AI领域根本性挑战 模型会自信地生成不真实答案 当前训练评估机制倾向于奖励猜测而非承认不确定性 [2][9][12] - OpenAI通过系统性研究揭示幻觉根源 指出评估方法设置错误激励机制是主因 需要重新设计评估指标来降低幻觉 [9][21][36] 幻觉定义与表现 - 幻觉指语言模型生成看似合理但实际错误的陈述 即使简单问题也可能出现意外错误 [6] - 测试案例显示不同聊天机器人对同一问题给出多个错误答案 如Adam Tauman Kalai博士论文标题和生日均被错误回答 [6][7] 训练评估机制缺陷 - 当前评估方法采用多项选择题模式 鼓励模型猜测而非承认不确定 猜测有概率正确而弃权必得零分 [9][10] - 标准准确度指标主导评估体系 导致开发者构建倾向于猜测的模型 错误答案比弃权答案更糟糕但评估体系未体现 [12][18] - GPT5系统卡评估显示:gpt-5-thinking-mini弃权率52% 错误率26% 而OpenAI o4-mini弃权率仅1%但错误率达75% [14] 基准测试局限性 - 主流基准测试如GPQA、MMLU-Pro等均采用二元评分 对不确定答案不予加分 形成错误二分法 [16] - 简单评估中模型准确度可接近100% 但实际使用中因信息不可用或能力限制 准确度无法达到100% [17] 幻觉产生机制 - 预训练阶段通过下一个词预测学习 缺乏真假标签标注 难以区分有效与无效语句 [25][26] - 拼写和括号等一致性错误随规模扩大消失 但任意低频事实(如宠物生日)无法仅靠模式预测 导致幻觉 [27] 常见误解与澄清 - 准确度无法达到100% 因部分现实问题本质无法回答 并非所有幻觉都能通过提高准确度消除 [29][30] - 幻觉并非不可避免 模型可选择弃权回答 小型模型更易了解自身局限性 [31][32][33] - 幻觉非神秘缺陷 其产生和奖励机制可从统计学角度理解 需要重新设计评估指标而非仅靠幻觉评估 [34][35][36] 改进方向与进展 - 应对自信错误施加更大惩罚 对恰当表达不确定性给予部分加分 类似标准化测试的负面评分机制 [20][21] - OpenAI最新模型幻觉率已降低 公司持续努力进一步降低置信错误率 [37] - 公司重组模型行为团队 原负责人启动新项目oai Labs 专注于人机协作新界面原型研究 [37]
OpenAI罕见发论文:我们找到了AI幻觉的罪魁祸首
机器之心·2025-09-06 11:14