GenAI系列报告之68:2026大模型幻觉能被抑制吗?
申万宏源证券·2026-01-22 16:27

报告行业投资评级 - 看好 [2] 报告核心观点 - 报告认为,AI大模型的幻觉(即产生过度自信的似真谬误)是模型能力的下限,是保障AI应用真正落地的核心 [4] - 报告的核心结论是,到2026年,AI模型的幻觉能够得到有效控制,全球幻觉率最低的TOP25个大模型其幻觉率已低于8%,达到可落地水平 [4][5] - 在幻觉可控的前提下,报告看好三大投资方向:最先成熟的AI应用、幻觉不敏感且商业化速度快的营销AI、以及数据与AI基础设施 [4][6] 幻觉的定义与重要性 - 幻觉是指语言模型常产生过度自信的似真谬误,主要包括无中生有、事实错误、语境误解、逻辑谬误等 [4] - 根据哥德尔不完备定理,幻觉无法完全消灭,是伴随AI算法发展的长期命题 [4] - 智能化水平提升打开AI能力上限,而幻觉控制则是保障模型能力的下限,是AI应用落地的核心 [4] - 例如,GPT-3.5在基于引文的事实性评估中出现幻觉的比例约为40%,GPT-4虽改善但幻觉率仍高达28.6% [14] 幻觉的产生原因 - 预训练阶段:数据噪声、领域知识稀疏、事实性验证能力缺失是核心问题 [16] - 有监督微调阶段:标注错误、过拟合导致对错误知识过度自信 [16] - RLHF对齐阶段:奖励设计缺陷使模型为迎合目标牺牲真实性 [16] - 推理部署阶段:事实和逻辑被截断、Token级生成无法修正早期错误、随机采样增加风险 [16] - 根本原因包括:1)模型架构;2)有毒数据;3)奖励目标对准确性要求缺失;4)上下文窗口限制模型理解力 [4][7] - 预训练的任务归约逻辑是重要底层原因,将生成任务简化为“Is-It-Valid”二元分类任务存在误差下界 [16][17] - 传统的Next-token预测目标是一种密度估计,迫使模型在面对长尾事实时猜测以拟合分布,从而产生幻觉 [18] - 评估体系的激励错位也是原因之一,当前基准更关注回答全面性,对准确性的要求相对较低,经常回答“IDK”的模型无法取得高分 [22][24] 降低幻觉的路径:模型层面 - 使用更多人类偏好数据进行对齐,并扩大上下文窗口(例如从32K扩大到128K),以提升模型理解能力 [4][7] - 架构创新主要从模型记忆入手,解决注意力机制导致的幻觉问题 [4][7] - RLHF(人类反馈强化学习):有助于让模型输出与人类评判一致,间接减少幻觉,Anthropic等公司已将安全性和价值观纳入反馈体系 [27] - 长上下文:已成为共识性方案,通过扩展信息承载能力减少因信息不全导致的错误推测,谷歌Gemini 1.5 Pro支持200万token上下文 [25] - 谷歌提出的“选择性生成”框架,通过结合模型置信度与上下文充分性信号,可将Gemini、GPT等模型回答正确率提升2%-10% [31] - 阿里巴巴的FunAudio-ASR语音识别大模型通过Context模块,在高噪声场景下将幻觉率从78.5%下降至10.7% [34] - 记忆架构创新: - Memory3(忆立方)模型将参数拆解为隐性、显性和外置记忆库三级架构,通过“锚定-召回”机制优化事实存储与调用,在多项幻觉评估中表现超越同参甚至更大参数模型 [36][37][42] - 谷歌的HOPE架构模仿人脑多频率记忆机制,构建连续记忆频谱以填补传统LLM的记忆断层 [44] - 循证增强机制:强制模型生成以可核验证据为前提,百川智能的Baichuan-M2 Plus医疗大模型通过该机制,幻觉率仅为DeepSeek-R1的1/3 [47][48] - OpenAI通过优化Next-token预测目标,增加对事实准确性和不确定性表达的建模,并在后训练阶段引入显式置信度目标与行为校准来降低幻觉 [51] 降低幻觉的路径:数据层面 - 核心是喂给模型高质量数据,业界聚焦高质量数据集的构建 [4][7] - 采用“AI + 人工”模式清洗标注数据,以减少训练噪声,代表公司包括海天瑞声和Scale AI [4][7] - 人工构建可信数据集的过程包括短语修剪、去语境化、语法修正等阶段 [52] - 数据标注内容从简单的图文对,演变为包含思维链的复杂数据,以教会AI拆解问题的想法 [52] - 在推理阶段,通过自动过滤矛盾信息,提升输入数据的可靠性 [4][55] 降低幻觉的路径:工程化与Agent - RAG(检索增强生成)技术:已成为企业部署AI应用的标配,Gartner预计2025年企业采用率将达68% [4][7][56] - RAG通过结合外部知识库与LLM,让模型基于检索到的真实信息生成回答,减少依赖内部记忆产生的幻觉 [58] - 例如,谷歌Gemini在运行时连接Google搜索引擎索引,检索最新网络信息和Data Commons的数千亿数据点来鉴别并降低幻觉 [62] - 流程约束与问题分解: - D&Q(Decompose-and-Query)框架将复杂问题拆解为多个相互依赖的子问题,通过深度优先搜索逐步推进推理,缩短单步推理跨度,降低错误累积风险 [64] - 类似方法结合RAG可显著降低模型的逻辑推理幻觉 [67] - Agent的自主学习与纠错机制:为解决多步执行中的错误累积问题,业界关注包括任务拆解校验、自我纠错、优化上下文管理、多Agent配合、从失败中学习反馈以及明确兜底规则等机制 [68][70] - 例如,智谱在AutoGLM Agent训练中使用在线强化学习,实现边交互边学习 [71] 幻觉控制的现状与评估 - 根据Vectara的HHEM测评,全球幻觉率最低的TOP25个大模型,其幻觉率均低于8% [4][72] - 其中,蚂蚁集团的Finix 32b模型幻觉率最低,为1.8% [72] - 参数规模千亿-万亿的SOTA模型中,谷歌Gemini-2.5-flash-lite幻觉率为3.3%,Deepseek V3.2 Exp为5.3% [72] - 通过工程化手段可显著提升严肃场景下的模型可用性,例如在财税领域,通用大模型结合RAG可将模型可用率从36.5%提升至85.6% [75][76] - 通过构建抗幻觉的Agent系统及企业级自定义规则模型,结合工程化方式,在财税等场景准确率可达到90% [75] 2B应用渗透趋势与投资方向 - 报告探讨范围框定在2B应用,因为对B端而言,智能越高往往代表生产力越高 [76] - 欧盟《人工智能法案》将AI系统分为四类风险等级,当前探讨的AI+2B应用(如医疗、金融、法律、企业服务)基本集中在高风险和有限风险领域 [79] - AI应用渗透分阶段推进:先从效率工具切入,再进入与企业职能部门及业务融合的阶段 [81] - 在阿里云调研的1500家企业中,50.2%已基于基础大模型进行行业微调,40%通过Prompt工程实践开展应用,37%以上已开展基于检索的知识增强及构建智能体 [81] - 在企业服务领域,营销和销售、服务运营是两个进展较快的领域 [85] - 不同行业对幻觉的敏感度与渗透趋势不同 [89][92]: - 医疗、金融、法律:对幻觉极度敏感,目前以“AI辅助+人工复核”为核心模式,未来将向精准化辅助深化,依托低幻觉模型落地更多场景 - 教育:对幻觉中度敏感,目前辅助教学为主,未来将融合个性化学习与低幻觉知识输出 - 营销:对幻觉低度-中度敏感,深度渗透于创意内容生成,未来将走向“创意生成+精准触达”双轮驱动 - 财税与企业服务:对幻觉中度敏感,应用于流程自动化,未来将实现低幻觉合规融合,提升效率与合规水平 - 报告引用专家观点指出,即使模型停止进步,将其部署到各类公司也能带来巨大收益,当前AI对GDP的影响还远不到1%,存在巨大空间 [93] - 报告具体看好三大方向及相关公司 [4][6][93]: 1. 最先成熟的AI应用:税友股份、合合信息、鼎捷数智、卓易信息、汉得信息、万兴科技 2. 幻觉不敏感、商业化速度快的营销AI:迈富时、新致软件、光云科技 3. 数据+AI基础设施:海天瑞声、深信服

GenAI系列报告之68:2026大模型幻觉能被抑制吗? - Reportify