RAG技术
搜索文档
GenAI系列报告之68:2026大模型幻觉能被抑制吗?
申万宏源证券· 2026-01-22 16:27
报告行业投资评级 - 看好 [2] 报告核心观点 - 报告认为,AI大模型的幻觉(即产生过度自信的似真谬误)是模型能力的下限,是保障AI应用真正落地的核心 [4] - 报告的核心结论是,到2026年,AI模型的幻觉能够得到有效控制,全球幻觉率最低的TOP25个大模型其幻觉率已低于8%,达到可落地水平 [4][5] - 在幻觉可控的前提下,报告看好三大投资方向:最先成熟的AI应用、幻觉不敏感且商业化速度快的营销AI、以及数据与AI基础设施 [4][6] 幻觉的定义与重要性 - 幻觉是指语言模型常产生过度自信的似真谬误,主要包括无中生有、事实错误、语境误解、逻辑谬误等 [4] - 根据哥德尔不完备定理,幻觉无法完全消灭,是伴随AI算法发展的长期命题 [4] - 智能化水平提升打开AI能力上限,而幻觉控制则是保障模型能力的下限,是AI应用落地的核心 [4] - 例如,GPT-3.5在基于引文的事实性评估中出现幻觉的比例约为40%,GPT-4虽改善但幻觉率仍高达28.6% [14] 幻觉的产生原因 - 预训练阶段:数据噪声、领域知识稀疏、事实性验证能力缺失是核心问题 [16] - 有监督微调阶段:标注错误、过拟合导致对错误知识过度自信 [16] - RLHF对齐阶段:奖励设计缺陷使模型为迎合目标牺牲真实性 [16] - 推理部署阶段:事实和逻辑被截断、Token级生成无法修正早期错误、随机采样增加风险 [16] - 根本原因包括:1)模型架构;2)有毒数据;3)奖励目标对准确性要求缺失;4)上下文窗口限制模型理解力 [4][7] - 预训练的任务归约逻辑是重要底层原因,将生成任务简化为“Is-It-Valid”二元分类任务存在误差下界 [16][17] - 传统的Next-token预测目标是一种密度估计,迫使模型在面对长尾事实时猜测以拟合分布,从而产生幻觉 [18] - 评估体系的激励错位也是原因之一,当前基准更关注回答全面性,对准确性的要求相对较低,经常回答“IDK”的模型无法取得高分 [22][24] 降低幻觉的路径:模型层面 - 使用更多人类偏好数据进行对齐,并扩大上下文窗口(例如从32K扩大到128K),以提升模型理解能力 [4][7] - 架构创新主要从模型记忆入手,解决注意力机制导致的幻觉问题 [4][7] - **RLHF(人类反馈强化学习)**:有助于让模型输出与人类评判一致,间接减少幻觉,Anthropic等公司已将安全性和价值观纳入反馈体系 [27] - **长上下文**:已成为共识性方案,通过扩展信息承载能力减少因信息不全导致的错误推测,谷歌Gemini 1.5 Pro支持200万token上下文 [25] - 谷歌提出的“选择性生成”框架,通过结合模型置信度与上下文充分性信号,可将Gemini、GPT等模型回答正确率提升2%-10% [31] - 阿里巴巴的FunAudio-ASR语音识别大模型通过Context模块,在高噪声场景下将幻觉率从78.5%下降至10.7% [34] - **记忆架构创新**: - Memory3(忆立方)模型将参数拆解为隐性、显性和外置记忆库三级架构,通过“锚定-召回”机制优化事实存储与调用,在多项幻觉评估中表现超越同参甚至更大参数模型 [36][37][42] - 谷歌的HOPE架构模仿人脑多频率记忆机制,构建连续记忆频谱以填补传统LLM的记忆断层 [44] - **循证增强机制**:强制模型生成以可核验证据为前提,百川智能的Baichuan-M2 Plus医疗大模型通过该机制,幻觉率仅为DeepSeek-R1的1/3 [47][48] - OpenAI通过优化Next-token预测目标,增加对事实准确性和不确定性表达的建模,并在后训练阶段引入显式置信度目标与行为校准来降低幻觉 [51] 降低幻觉的路径:数据层面 - 核心是喂给模型高质量数据,业界聚焦高质量数据集的构建 [4][7] - 采用“AI + 人工”模式清洗标注数据,以减少训练噪声,代表公司包括海天瑞声和Scale AI [4][7] - 人工构建可信数据集的过程包括短语修剪、去语境化、语法修正等阶段 [52] - 数据标注内容从简单的图文对,演变为包含思维链的复杂数据,以教会AI拆解问题的想法 [52] - 在推理阶段,通过自动过滤矛盾信息,提升输入数据的可靠性 [4][55] 降低幻觉的路径:工程化与Agent - **RAG(检索增强生成)技术**:已成为企业部署AI应用的标配,Gartner预计2025年企业采用率将达68% [4][7][56] - RAG通过结合外部知识库与LLM,让模型基于检索到的真实信息生成回答,减少依赖内部记忆产生的幻觉 [58] - 例如,谷歌Gemini在运行时连接Google搜索引擎索引,检索最新网络信息和Data Commons的数千亿数据点来鉴别并降低幻觉 [62] - **流程约束与问题分解**: - D&Q(Decompose-and-Query)框架将复杂问题拆解为多个相互依赖的子问题,通过深度优先搜索逐步推进推理,缩短单步推理跨度,降低错误累积风险 [64] - 类似方法结合RAG可显著降低模型的逻辑推理幻觉 [67] - **Agent的自主学习与纠错机制**:为解决多步执行中的错误累积问题,业界关注包括任务拆解校验、自我纠错、优化上下文管理、多Agent配合、从失败中学习反馈以及明确兜底规则等机制 [68][70] - 例如,智谱在AutoGLM Agent训练中使用在线强化学习,实现边交互边学习 [71] 幻觉控制的现状与评估 - 根据Vectara的HHEM测评,全球幻觉率最低的TOP25个大模型,其幻觉率均低于8% [4][72] - 其中,蚂蚁集团的Finix 32b模型幻觉率最低,为1.8% [72] - 参数规模千亿-万亿的SOTA模型中,谷歌Gemini-2.5-flash-lite幻觉率为3.3%,Deepseek V3.2 Exp为5.3% [72] - 通过工程化手段可显著提升严肃场景下的模型可用性,例如在财税领域,通用大模型结合RAG可将模型可用率从36.5%提升至85.6% [75][76] - 通过构建抗幻觉的Agent系统及企业级自定义规则模型,结合工程化方式,在财税等场景准确率可达到90% [75] 2B应用渗透趋势与投资方向 - 报告探讨范围框定在2B应用,因为对B端而言,智能越高往往代表生产力越高 [76] - 欧盟《人工智能法案》将AI系统分为四类风险等级,当前探讨的AI+2B应用(如医疗、金融、法律、企业服务)基本集中在高风险和有限风险领域 [79] - AI应用渗透分阶段推进:先从效率工具切入,再进入与企业职能部门及业务融合的阶段 [81] - 在阿里云调研的1500家企业中,50.2%已基于基础大模型进行行业微调,40%通过Prompt工程实践开展应用,37%以上已开展基于检索的知识增强及构建智能体 [81] - 在企业服务领域,营销和销售、服务运营是两个进展较快的领域 [85] - 不同行业对幻觉的敏感度与渗透趋势不同 [89][92]: - **医疗、金融、法律**:对幻觉极度敏感,目前以“AI辅助+人工复核”为核心模式,未来将向精准化辅助深化,依托低幻觉模型落地更多场景 - **教育**:对幻觉中度敏感,目前辅助教学为主,未来将融合个性化学习与低幻觉知识输出 - **营销**:对幻觉低度-中度敏感,深度渗透于创意内容生成,未来将走向“创意生成+精准触达”双轮驱动 - **财税与企业服务**:对幻觉中度敏感,应用于流程自动化,未来将实现低幻觉合规融合,提升效率与合规水平 - 报告引用专家观点指出,即使模型停止进步,将其部署到各类公司也能带来巨大收益,当前AI对GDP的影响还远不到1%,存在巨大空间 [93] - 报告具体看好三大方向及相关公司 [4][6][93]: 1. **最先成熟的AI应用**:税友股份、合合信息、鼎捷数智、卓易信息、汉得信息、万兴科技 2. **幻觉不敏感、商业化速度快的营销AI**:迈富时、新致软件、光云科技 3. **数据+AI基础设施**:海天瑞声、深信服
人工智能专题:2025年中国人工智能与商业智能发展白皮书
搜狐财经· 2025-05-22 08:55
人工智能与商业智能融合(ABI)市场洞察 - 传统BI存在封闭架构、静态处理及技术壁垒等局限性,难以满足实时动态决策需求,而ABI通过自动化数据处理、智能算法及自然语言交互推动决策从被动响应转向主动预测 [1][21][24] - 中国ABI市场呈现爆发式增长,2023年市场规模3亿元,预计2024年达8亿元,2024-2028年CAGR达42%,核心驱动力包括企业数据依赖加深、AI技术突破及政策支持 [1][13] - ABI通过自然语言处理(NLP)、机器学习等技术实现对话式交互、多模态数据分析及复杂推理,例如Text2SQL/Text2DSL将自然语言转化为数据查询指令,RAG技术整合外部知识增强分析深度 [2][45][48] 行业应用场景与案例 - 金融行业通过智能风控与量化交易提升决策精度,如招商银行实现毫秒级反欺诈拦截 [2] - 零售业借助动态定价与库存优化提升运营效率,如京东供应链周转周期压缩至31.7天 [2] - 制造业通过预测性维护与生产流程优化降低停机成本,如富士康"灯塔工厂"人力精简88% [2] - 政务领域依托智能交通与城市治理提升服务效能,如深圳交通通行效率提升30% [2] - 能源行业通过设备诊断与电网调度实现智能化转型,如山东电网设备诊断周期从7天缩至毫秒级 [2] 技术架构与核心功能 - ABI技术分层包括基础层(工具升级)与战略层(决策链路重构),通过自动化数据流水线释放人力冗余,依托智能算法提供动态预测与战略决策支持 [11][13][41] - AI赋能BI四大核心路径:Text2SQL/Text2DSL实现自然语言交互、多模态数据整合、复杂推理(链式思维/多代理协作)、数据叙事(Storytelling)生成 [45][48][52][56] - 大语言模型(LLM)通过预训练内嵌数据分析知识,结合监督微调(SFT)消除非技术人员使用门槛,用户渗透率从传统BI的1%提升至近100% [32][37][38] 数据生命周期与市场规模 - 企业数据生命周期涵盖捕获/维护/使用/发布/归档/删除六大环节,2024年中国数据采集工具市场规模45亿元,数据治理市场198亿元,数据库市场598.5亿元 [16][18][19] - 数据使用环节支出最高,2024年中国数据仓库市场规模73亿元,数据安全市场148.84亿元,反映企业对数据合规与隐私保护的重视 [19] - 现代BI需求包括实时分析、非结构化数据处理、自助式可视化、预测性智能及多源数据整合,推动行业从静态批处理向开放智能分析范式转型 [27][28] 竞争格局与发展趋势 - 全球厂商如微软、Salesforce侧重生态整合,国内厂商如阿里云、帆软聚焦轻量化部署与本土化场景创新 [3] - 未来趋势包括边缘计算与实时分析、生成式AI渗透、隐私计算技术(如联邦学习)及行业深度适配 [3][11] - 行业挑战集中于数据治理滞后、算法黑箱、场景碎片化及技术成本壁垒,需解决"数据-技术-业务"三角失衡问题 [3][11]
计算机行业动态报告:重估数据库:未来软件=Agent+数据库
民生证券· 2025-05-06 11:42
报告行业投资评级 - 推荐,维持评级 [6] 报告的核心观点 - AI Agent推动软件形态变革,数据库是承载数据的重要载体,能避免大模型推理“幻觉”等问题,是AI时代必需品;AI赋能数据库升级,推动行业加速发展,建议关注达梦数据等公司 [5][42] 根据相关目录分别进行总结 DB for AI:AI Agent推动软件形态变革,数据库具有不可替代的重要地位 - AI Agent可直接与终端互动,替代中间应用层软件,如飞猪“问一问”功能简化操作流程 [1][11] - 数据库在软件形态变革中地位重要,一是承载高质量数据,做好“源头关”治理;二是向量数据库、RAG等产品和技术赋能AI发展,缓解大模型“幻觉”问题 [2][14] - RAG框架结合信息检索与大模型,提高AI回答准确性和可靠性、增强数据隐私和安全保护、提升信息实时性和适应性;向量数据库有望成为RAG检索底座 [16][18][19] - OpenAI收购Rockset增强实时分析和RAG领域实力;OceanBase进入AI时代,4.3.3 GA版本新增向量检索能力;海量数据推出Vastbase向量版,具备高性能、高安全、高可用特点 [3][22][27] AI for DB:AI赋能推动数据库自身升级,推动行业加速发展 - AI为解决数据库管理和运维挑战提供新思路,智能运维可实现实时监控、预测分析和自动化处理,如GaussDB智能运维中心 [31][32] - 降低数据库操作门槛有Text - to - SQL和NLQuery - to - NLAnswer两种技术路线;数据库自治模式可实现自我管理和运维 [35][36] - 达梦数据将AI算法融入数据库核心功能;GaussDB构建全生命周期AI应用体系 [36][38] 投资建议 - 建议重点关注达梦数据、太极股份、海量数据、软通动力、创意信息、星环科技、超图软件、拓尔思等公司 [5][42]