Workflow
DeepSeek与AI幻觉
清华大学·2025-02-20 17:50

报告行业投资评级 未提及 报告核心观点 AI幻觉指模型生成与事实不符、逻辑断裂或脱离上下文的内容,产生原因包括数据偏差、泛化困境等,虽存在信息污染、信任危机等风险,但也有科学发现、文艺设计等创造力价值,可通过多种方式应对[12][14][17][38] 各部分总结 案例 - DeepSeek在金融行业应用,某头部银行用其构建因果归因网络,不良率下降4.2个百分点;国信证券部署模型,数据泄露风险降低90% [6] - Whisper在医疗系统应用,转录样本约一半有幻觉,2.6W多份病例几乎都有瞎编和幻觉问题 [9] 什么是AI幻觉 - 学术上指模型生成与事实不符等内容,本质是统计概率驱动的“合理猜测”,分事实性幻觉和忠实性幻觉 [12] AI为什么会产生幻觉 - 原因有数据偏差、泛化困境、知识固化、意图误解 [14] 音乐为什么没有幻觉 - 因音乐主观性和多样性、抽象性、可感知性差异,潜在表现为逻辑断裂的歌词等 [15] AI幻觉的潜在风险 - 包括信息污染风险、信任危机、控制欠缺、安全漏洞 [17] AI幻觉评测 - 通用提示语测试中,DeepSeekV3幻觉率2%,DeepSeekR1为3%,Qianwen2.5 - Max为2%,豆包为0 [19] - 事实性幻觉测试中,DeepSeekV3幻觉率29.67%,DeepSeekR1为22.33%,Qianwen2.5 - Max为27.67%,豆包为19% [21] 推理与幻觉的关系 - 推理增强幻觉率可能降低,如逻辑准确性与错误减少、上下文理解与信息关联增强;也可能增加,如逻辑过度外推等 [26][28] 普通用户应对AI幻觉的方式 - 联网搜索可降低幻觉率,如DeepSeekV3通用性测试幻觉率从2%降至0%,事实性测试从29.67%降至24.67% [29] - 双AI验证/大模型协作,如用DeepSeek生成答案后用其他大模型审查 [30] - 提示词工程包括知识边界限定和对抗性提示等多种方法 [31][32] 幻觉高发场景 - 包括知识边界模糊、复杂推理、技术性诱发等多种场景,各有对应风险等级和防护建议 [34] 应对AI幻觉的技术方案 - 有RAG框架、外部知识库、精细训练、评估工具 [36] AI幻觉的创造力价值 - 体现在科学发现、文艺与设计、娱乐与游戏、技术创新等方面,科学界还构建了新型科研范式 [38][39][40][41][42]