RAG(检索增强生成)
搜索文档
2026,进入AI记忆元年
36氪· 2026-01-27 18:28
大模型技术发展现状 - 自2023年年中起,SOTA模型的迭代周期被快速压缩至35天,曾经的SOTA模型在5个月内就可能跌出前五,7个月后可能跌出前十 [1] - 尽管模型持续迭代,但像ChatGPT、DeepSeek那样令人眼前一亮的新产品越来越少,技术进步进入小修小补的瓶颈期 [1] AI记忆成为行业新焦点 - 2023年,以Milvus、Pinecone、faiss为代表的向量数据库产品涌现 [2] - 2024至2025年期间,以Letta (MemGPT)、Mem0、MemU、MemOS为代表的各种AI记忆框架大量出现 [2] - 模型厂商如Claude和谷歌相继宣布为其模型增加记忆能力,引发行业关注 [2] - 在代码补全、情感陪伴、智能客服等场景,“模型+记忆”的商业模式正催生越来越多通过PMF验证的细分爆款 [2] - 红熊AI等主打AI记忆科学解决方案的厂商成为新的行业焦点 [2] 对AI记忆的行业误解一:记忆等于RAG加长上下文 - 在2023-2024年AI基础设施爆发期,RAG技术一度成为AI记忆的代名词 [4] - RAG通过外置向量数据库,使大模型能掌握训练阶段未更新的信息和私有知识 [4] - 传统RAG方案在落地中暴露出短板,例如在法律场景中,语义相似但适用性不同的条款会被混淆,且无法遵循法律效力优先级 [6] - 在客服场景中,RAG方案会为重复问题花费不必要的检索成本,且无法实现跨会话记忆 [7] - 基于语义检索的RAG方案只能解决不到60%的真实需求 [8] - RAG作为一种被动检索工具,解决了“不知道”的问题,但无法解决“记不住”的核心矛盾,且数据更新通常以周为单位,无法实时写入 [8] - RAG存在跨会话记忆丢失、信息无法动态沉淀、不会主动关联经验等能力盲区 [9] 红熊AI的记忆科学体系 - 真正的AI记忆需复刻人脑工作逻辑:短期记得住,长期有常识,判断有感情 [10] - 人脑处理信息经过编码、存储、提取三大环节,是一套动态、实时、可写入可检索的智能系统 [10] - 红熊AI据此打造了完整的记忆科学体系,将AI记忆拆解为显性记忆、隐性记忆、联想记忆及动态进化记忆,各层通过智能算法动态流转 [10] - 该体系为记忆加入了情感加权、智能遗忘、跨智能体协同等能力,从底层重构了AI记忆逻辑,解决了数据量爆炸带来的成本与上下文过长问题 [10] 对AI记忆的行业误解二:事实检索重于一切 - 红熊AI团队曾将准确率作为记忆系统的唯一KPI,这在金融风控、技术运维等事实优先的场景中运行顺畅 [11] - 但在情感咨询等场景中,用户需要的是被理解、被安抚、被肯定,而非精准的事实答案 [13] - 这促使红熊AI攻克了记忆系统的情感难题,通过给每段记忆贴上情感权重标签,从多维度量化用户情绪 [14] - 情感权重会决定记忆的优先级,并影响AI的回应逻辑,例如在用户有负面评价记忆时,AI需先安抚再同步事实信息 [14] 对AI记忆的行业误解三:Agent的未来是标准化 - 记忆与工具的加持降低了Agent开发门槛,可针对特殊场景提供解决方案,从而瓦解传统SaaS的场景壁垒 [15] - 但这也伴随着非标碎片化挑战,没有一套标准化记忆系统能适配所有行业,甚至同一行业的不同品类都需差异化定制 [15] - 在情商落地方面,不同行业的情感权重占比差异巨大:售后客服、教育场景占40%-50%,医疗、金融风控场景占10%-20%,通用陪伴场景占20%-30% [16] - 红熊AI必须在做好标准化能力的基础上,接受解决方案环节的非标准化 [17] 红熊AI的共性能力建设与非标解决方案 - 在记忆熊v0.2.0中,红熊AI强化了集群化Agent记忆协同能力,通过统一记忆中枢实现多Agent间的最小化、按需式记忆共享 [17] - 支持主管模式和协作模式,适配不同场景的智能体组织形态 [17] - 针对多模态数据处理,推出三大解析引擎实现100%版面还原,支持PPTX高保真解析、音视频以文搜音 [17] - 通过向量加图谱双驱动检索,将多跳推理准确率提升至92.5% [17] - 非标环节集中于行业词汇库积累、知识图谱打造等解决方案,首次拓展新品类客户需花费数周进行前期共建与知识梳理 [19] - 用户数据处理消耗整体约25%的成本 [19] - 需要积累不同行业知识,例如医疗行业的负面词是“疼痛、过敏、并发症”,金融行业核心词是“平仓、建仓、净值” [21] - 这种前期非标准化和缓慢的开拓过程,会成为企业的先发优势和核心壁垒 [21] 行业趋势展望 - 进入2026年,大模型的叙事正从以Scaling Law为核心的参数竞赛,切换至以记忆为主导的下半场 [22] - 记忆能力已成为拉开不同模型和Agent表现差异的核心 [22] - 参与玩家包括上游的模型厂商、框架玩家,以及红熊AI这样的专业解决方案商 [22] - 这一过程不如“百模大战”那样高举高打,也不会快速决出阶段性赢家 [22]
京东阿里健康的阳谋
36氪· 2026-01-26 13:40
OpenEvidence的商业模式与成功要素 - 公司是一家成立仅4年、未上市的医疗AI公司,估值达120亿美元,年营收超过1.5亿美元[1] - 公司核心产品是面向医生的临床决策支持工具,对医生端完全免费,通过重构AI商业底层逻辑实现快速增长[1] - 公司解决了医生面临医学知识爆炸性增长(2025-2026年细分领域知识更新速率比2010年提升超10倍)与时间有限的核心痛点[2][3] - 采用RAG(检索增强生成)与严格溯源技术,将医生信息筛选时间从几小时压缩至3秒,所有结论均附有《柳叶刀》等顶级期刊或FDA指南的原文引用[4] - 2025年月活跃用户达到40万,覆盖美国约34%的执业医师(美国执业医师总数约118万),全年查询量破亿[5][9] - 用户粘性极高,医生平均单次会话时长高达13.3分钟,表明产品已成为医生的“外脑”和决策依赖工具[5] - 采用“自下而上”的推广策略,直接面向医生免费提供,绕过医院繁琐的采购流程,实现了病毒式传播[6] OpenEvidence的盈利模式 - 公司主要盈利来源于向药企提供精准营销服务,切入医生“决策时刻”进行广告截流[7][8] - 美国医药营销市场规模超过820亿美元(IQVIA 2025年报告),公司为药企提供了高效、数字化的触达渠道,单次有效触达成本低于传统医药代表线下拜访[7][9] - 赞助内容(标注为Ad或Sponsored)会出现在AI生成的客观答案旁,所有数据均经过平台合规审核,与FDA获批适应症一致[8][9] - 公司商业模式清晰:用免费工具圈住高价值医生用户,再向药企出售决策瞬间的精准广告位,赚取高毛利收入,反哺数据与算力[13] - 商业模式被类比为“医疗版谷歌搜索广告”,但交易的是与生命相关的专业医疗信息[13] - 此外,公司还将核心能力封装成API出售给医院和医学院,并与顶级期刊进行内容授权、版权分成合作,还提供继续教育(CME)学分认证服务[11] 中国医疗AI市场面临的挑战 - 中国医疗AI企业面临数据获取难题,缺乏像美国PubMed、FDA那样统一开放的权威数据库,获取实时、全量的权威医学数据又贵又麻烦[15][16] - 数据权威性和时效性不足,导致AI产品的回答可能与核心文献对不上,难以获得医生的决策依赖[16] - 中国医疗环境对“药企广告”的容忍度极低,OpenEvidence核心的广告变现模式在中国面临巨大的舆论和信任成本,几乎成为“送命题”[17][18] - 中国医生工作强度大,三甲医院医生门诊压力重,更需要能处理“苦活、累活”的自动化工具,而非单纯用于信息检索和琢磨病例的工具[19][20] - 中国药企的营销预算仍大量集中于“带金销售”和线下会议,向数字化学术营销转型的过程缓慢,为医疗AI付费的意愿和市场成熟度远低于美国[21] 中国主要竞争者的战略分析 - **京东健康(知医)**:采用“工具+供应链+服务”的铁三角模式,核心目的是为卖药和健康管理业务导流,实现查-诊-疗-药的商业闭环[23] - 京东健康的软肋在于可能面临“既当裁判又当运动员”的信任危机,其中立性易受质疑,且其AI技术护城河相对较浅[24] - **阿里健康(氢离子)**:走纯粹技术路线,背靠阿里云和通义千问大模型,技术底座最为雄厚,目标是打造嵌入医院系统的“医疗OS”[25] - 阿里健康的挑战在于离交易和服务较远,工具属性强但交易属性弱,面临较大的变现压力[26] - **蚂蚁集团(阿福)**:打法独特,不紧盯药企广告费,而是试图通过AI深度切入诊疗流程,未来打通医保支付和商保理赔,从节省的医疗费用中获利[27][28] - 蚂蚁的路径最险但潜在护城河最深,其模式更类似于构建“医疗版微信”的生态[28] 中国医疗AI市场未来格局展望 - 短期看京东健康(因其离钱最近),长期看阿里健康(技术天花板高),蚂蚁则在寻找支付和保险领域的新故事[28] - 未来3年,市场难以出现一家独大的“中国版OpenEvidence”,医疗市场将走向分化[28] - 严肃医疗场景(如三甲医院科研、复杂诊疗)可能被阿里健康或垂直医疗AI公司占据[28] - 基层医疗和药店场景(如常见病、慢病管理)可能被京东健康垄断,作为其卖药和服务的辅助工具[28] - C端医疗场景将成为蚂蚁、百度健康等玩家的主战场,竞争核心在于生态和资源整合能力[28] - OpenEvidence给中国公司核心启示在于:如何用免费工具圈住高价值用户,并将其需求卖给真正的买单方[29]
百亿向量,毫秒响应:清华研发团队向量数据库 VexDB 首发,攻克模型幻觉难题
AI前线· 2025-09-25 16:04
文章核心观点 - 生成式AI的幻觉问题已成为其深入企业级核心应用的主要障碍,尤其在医疗、金融等高风险领域,模型可能生成虚假信息,引发业务风险[2][6][8] - 业界采用检索增强生成(RAG)方案来约束大模型输出,其性能瓶颈集中在检索环节,检索的准确性、速度和稳定性直接决定AI应用的成败[9][11] - 向量数据库作为RAG架构的核心组件,通过高效的非结构化数据语义检索,为AI应用提供可信的知识基石,是解决幻觉问题的关键基础设施[12][14] - 清华团队发布的VexDB向量数据库在精度、规模、响应速度和动态更新等维度实现突破,并在医疗、通信等行业实践中显著提升效率与可靠性[4][15][17][19][20] 大模型幻觉问题与企业级应用风险 - 大模型幻觉源于其基于统计概率的生成机制,缺乏真正的逻辑推理和事实核查能力,例如在HHEM测试中,DeepSeek-R1模型的幻觉率高达14.3%,即每7次摘要就有1次产生幻觉[6] - 企业级应用中,模型幻觉从技术问题升级为致命业务风险:医疗领域可能误导诊断并引发医患纠纷;金融领域基于虚假信息的风险评估会导致巨额资金损失[8] - 解决幻觉问题是AI技术融入企业核心业务流程的准入资格,构建可信的AI基础设施是部署关键场景的前提[8] RAG解决方案的价值与挑战 - RAG通过引入外部知识源,将大模型的生成过程约束在可控、可信范围内,而非修改模型底层算法[9] - 典型工作流程包括将企业私域知识切片、向量化并存入检索库,系统实时检索相关片段以引导模型生成可靠结果[10] - RAG性能瓶颈集中在数据处理、检索和结果整合三大环节,性能问题直接影响业务落地,例如电商智能客服检索响应超过2秒会导致用户咨询流失率上升30%[11] - 检索能力决定RAG系统天花板,某金融RAG项目通过数据去重与分层,检索效率提升40%,召回准确率从72%提升至89%[11] 向量数据库的技术必要性与发展趋势 - 传统关系型数据库在处理非结构化数据的语义搜索时力不从心,向量数据库专为高维向量相似性搜索设计,能通过计算向量距离度量语义相似性[12] - 全球向量数据库市场规模2024年为22亿美元,预计2025-2034年复合年增长率达21.9%,2034年将达151亿美元,反映企业对可靠AI基础设施的迫切需求[14] - Gartner预测到2026年,使用具有基础模型的向量数据库的公司比例将从2022年的2%升至30%[16] - 向量数据库正从RAG工具向AI数据基础设施平台演进,承担知识资产管理器、多模态语义连接器、Agent中枢引擎等复杂角色[20] VexDB向量数据库的技术突破与应用实践 - VexDB支持百亿千维向量数据毫秒级查询,召回准确度高达99%以上,并在DABSTEP非结构化数据分析测试中以领先第二名超10个百分点的成绩夺冠[4] - 关键技术突破包括高精度多路召回机制,支持稠密向量、稀疏向量检索和标量过滤,通过SQL层实现多路召回;结合HNSW与DiskANN的GraphIndex结构支持百亿规模毫秒响应[15] - 在医疗领域应用端到端RAG诊疗辅助系统,将病历生成时间从20多分钟缩短至8分钟内,效率提升超60%[17] - 在通信行业赋能营销导购与云盘服务,使客户转化率提升30%,方案产出耗时减少60%,云盘检索体验满意度超90%[19] - 支持动态更新与高可用架构,满足高并发场景下的数据一致性与业务连续性需求[20]
18 年 SEO 增长经验专家:别再收藏各种 AEO 最佳攻略了,自己动手实验才是做好的关键
Founder Park· 2025-09-23 22:19
AEO的定义与核心逻辑 - AEO(答案引擎优化)的核心目标是让内容以答案形式出现在大语言模型中,其本质是优化大语言模型以提供特定答案[9] - AEO与SEO的核心技术和思维方式高度重叠,AEO在SEO基础上增加了引用来源优化、更长的尾部问题和不同的头部竞争策略[5][50] - 大语言模型的工作机制可分为核心模型和RAG(检索增强生成)两个层面,其中RAG层通过搜索并总结结果来生成答案,这是最可控且见效最快的优化环节[27][28] AEO与传统SEO的关键差异 - 在AEO中,非常具体小众的长尾问题占据了更大流量份额,用户平均提问长度达25个词(传统搜索仅6个词)[19][21] - 头部竞争策略不同:传统搜索排名第一即获胜,而AEO答案排名取决于在所有引用来源中被提及的次数,需要尽可能增加品牌提及率[14] - 早期公司更适合AEO:传统SEO需要长期积累域名权重,而AEO可通过Reddit帖子、YouTube视频等渠道快速获得曝光,新公司发布第二天就可能出现在答案中[18] AEO的流量价值与转化效果 - ChatGPT带来的流量转化率比传统Google搜索高出6倍,用户经过多轮对话后需求更明确,转化质量显著更高[16] - Webflow公司8%的新用户注册来自大语言模型,这已成为重要用户获取渠道[47] - 流量增长自今年1月开始显著爆发,原因包括用户采纳率提升和答案可点击性增强(出现地图、购物轮播图等交互元素)[10][52] 有效的AEO优化策略 - 站内优化需重点关注帮助中心和技术支持内容,通过移入子目录、加强交叉链接、填补长尾问题空白来提升覆盖率[58][59][60] - 站外优化核心是引用来源优化,重点渠道包括YouTube视频、Reddit社区、联盟营销网站(如Dotdash Meredith旗下网站)和专业评测网站[22][30][31] - Reddit优化策略强调真实性:员工使用真实身份在相关帖子下提供高质量评论,5条高质量评论效果优于1万条垃圾评论[24][25] 行业错误认知与验证方法 - 网上大部分AEO最佳实践信息不准确,存在大量错误信息,需要自行验证策略有效性[2][36] - 验证需采用实验方法:选择200个问题分为测试组和对照组,针对测试组实施Reddit评论、YouTube视频等干预措施,观察几周后与对照组对比数据变化[43][44] - 纯AI生成内容策略行不通,排名前的内容中90%为人类创作,AI生成内容仅占10%,过度依赖AI会导致模型坍塌和观点趋同问题[53][54] 不同公司类型的AEO策略 - B2B公司应重点优化TechRadar等科技媒体引用来源,通过品牌曝光影响长决策链条[45] - 电商公司可直接追踪AI答案中购物卡片的点击转化,引用来源主要为时尚杂志和生活方式网站[45] - 早期公司建议完全放弃传统SEO,全力投入AEO,专注引用来源优化和长尾问题优化两大领域[45]
@CEO,你的下一个私人助理何必是人类
量子位· 2025-09-17 11:43
产品概述 - 智跃Agent一体机是市面上首个专门面向CEO打造的软硬一体私有化Agent,定位为开箱即用的信息管理助手[6][8] - 产品采用硬件+软件+算力+预置Agent的整合设计,搭配App实现插电即用,1小时内即可完成配置投入使用[8][13] - 产品核心关键词为超小型化和垂直化,采用12L精巧机箱设计,搭载单卡4090,实现完全本地化部署[9][28] 功能特点 - 具备信息自动收集、智能处理和清晰展示能力,支持从飞书、钉钉等内部IM系统或本地文档获取信息源[14][25] - 可生成两种模式报告:长文模式对工作进度进行详细分析,事项模式直接列出项目中事项的优先级[15][16] - 每个报告配备专属问答助手,实现专问专答、快问快答和有据回答,减少计算成本并提高准确性[23] - 报告信息完全可溯源,可定位到具体群聊内容,确保决策依据的真实性[20] 技术架构 - 采用Qwen3-30B-A3B基础模型,总参数量30B,激活参数量3B,通过任务拆分和上下文工程替代大模型[58][59] - 自研RAG系统实现多维实体提取、动态关系建立和抗幻觉能力,通过百分百溯源消除幻觉影响[54][55][56] - 针对企业常用工具如飞书、钉钉提供连接器支持快速接入,简化配置流程[62][63] - 在单卡4090机器上集成embedding模型、rerank模型和多模态模型,实现轻量化设计[60] 应用场景 - 为互联网科技公司自动分析客服聊天记录,上线第一周挖掘出超过30条未被手动上报的产品关键问题[44][45] - 在高新制造业场景中替代IM、OA功能,内置端到端加密汇报系统,实现更高保密程度[47] - 帮助非技术背景管理者透视研发进度,自动监控代码提交和任务状态,以可视化方式呈现项目真实进度[30] 市场定位 - 瞄准以信息为中心的管理痛点,实现更低部署成本和更强安全可控性,价格为68000元[42][72] - 针对中小型企业需求设计,相比市面其他私有化部署产品更便宜、更安全、更AI[48] - 目前已进入A轮融资接洽阶段,产品下一步将纵向增强Agent决策能力,横向拓展至不同岗位Agent[49][65] 行业趋势 - 2025年小模型效果大幅超越GPT-3,几十亿参数模型推理能力提升使本地化部署成为可能[38] - 垂直领域Agent创新加速,工程化能力成为建立竞争先手优势的关键因素[67][68] - 传统企业缺乏技术团队,针对实际场景打磨的垂直模型比通用模型更具实用性[69]
AI Agents与Agentic AI 的范式之争?
自动驾驶之心· 2025-09-06 00:03
AI智能体技术演进历程 - ChatGPT于2022年11月发布彻底改写AI发展轨迹 引发AI Agents和Agentic AI搜索热度飙升[2][4] - 早期专家系统如MYCIN(70年代)依赖符号推理和预设规则 缺乏学习能力和环境适应性[10] - 多智能体系统(MAS)和BDI架构(1999年)实现分布式问题解决 但仍受预编程限制[11] - 2023年AutoGPT等框架标志AI Agents落地 结合LLM与外部工具实现多步骤任务自主执行[12] - 2023年底CrewAI等系统推动进入Agentic AI阶段 多专业智能体协同分解复杂目标[12] - 谷歌2025年推出A2A协议 制定五大核心原则解决智能体互操作问题[12] AI Agents核心技术架构 - 定义为LLM和LIM驱动的模块化系统 填补生成式AI"只会说不会做"的空白[13] - 具备三大核心特征:自主性(无需人工干预) 任务特异性(专注单一领域) 反应性(适应动态变化)[16][17] - LLM作为推理决策中枢 承担目标解析 步骤分解和工具调用协调功能[21] - LIM扩展视觉感知能力 例如果园巡检AI实时识别病果和断枝并触发警报[21] - 工具集成通过"调用-结果整合"流程解决LLM知识滞后和幻觉问题[19] - ReAct框架实现推理与行动交替进行 例如ChatGPT网页搜索先判断知识缺口再调用工具[19] - Anthropic的"Computer Use"项目实现目标-行动-观察循环 控制鼠标键盘完成软件测试等任务[18] Agentic AI系统级创新 - 实现从孤立执行到协同决策的范式转变 核心在于多智能体协作解决复杂任务[24][27] - 与AI Agents关键差异体现在:广泛自主性 复杂任务协调 多智能体信息共享和跨环境学习能力[28] - 智能家居案例展示系统级智能:天气预测 能源管理和安防智能体协同实现全局目标[29] - 架构依赖两大支柱:协调层(元智能体负责任务分配和冲突解决) 共享记忆(存储任务进度和上下文)[33][36] - 动态任务分解将高级目标拆分为子任务 分配给专业智能体避免效率低下[33] - 科研助手AutoGen框架实现多智能体分工:检索 总结 整合 写作和引用智能体协同撰写综述[37] - 医疗决策支持系统集成监测 病史 治疗和协调智能体 降低误判风险并减少医生认知负担[38] 应用场景与典型案例 - AI Agents适用于客户服务 邮件筛选 内容推荐和日程管理等标准化任务[41] - Agentic AI在科研 农业 医疗和网络安全等复杂动态环境中展现优势[43] - 果园采摘场景实现多机器人协同:无人机测绘 采摘机器人 运输机器人和路径规划智能体联动[37][43] - 自动化基金申请书撰写通过多智能体协同完成文献分析 合规匹配和格式规范[43] - 企业网络安全事件响应由智能体分别处理威胁分类 合规分析和缓解方案制定[43] - ICU临床决策支持系统同步执行诊断 治疗方案制定和EHR分析 提升医疗安全性[43] 技术挑战与解决方案 - AI Agents存在因果推理缺失 LLM幻觉 知识滞后 提示敏感性和长期规划弱等痛点[50] - Agentic AI新增误差传递 协调瓶颈 涌现行为不可预测和可解释性差等挑战[50] - 十大解决方案包括:RAG提供实时外部知识 ReAct框架强化推理行动循环 因果建模区分相关性[49][52][53] - 共享记忆架构解决信息同步 元智能体协调避免混乱 工具验证机制自动修正错误[53] - 反思机制赋予自我批判能力 监控审计pipeline记录决策日志 治理架构防范安全风险[53] 未来发展方向 - AI Agents进化重点:提升主动推理能力 深化工具集成(结合机器人硬件) 强化因果推理[57] - Agentic AI突破方向:规模化多智能体协作(支持上千智能体) 领域定制化 伦理治理[57] - Absolute Zero框架探索零数据学习 实现自我驱动式的科研假设生成和验证[57] - 终极目标是从自动化工具进化为人类协同伙伴 适应高风险领域共同决策[58] - 需突破因果推理深度化 可解释性透明化和伦理安全体系化三大瓶颈[59]
什么是倒排索引(Inverted Index)?
搜狐财经· 2025-09-04 12:14
倒排索引技术概述 - 倒排索引是一种将词项映射到包含该词项文档列表的索引结构 与传统正向索引相反 通过关键词快速定位文档[1] - 构建过程包括文本预处理 词典生成和倒排记录表创建三个核心步骤[1] - 适用于全文检索 搜索引擎和大规模数据分析场景[1] 技术应用领域 - 广泛应用于全文搜索引擎 实现毫秒级文本检索响应 如Elasticsearch系统[3] - 应用于日志分析系统快速定位错误信息 以及推荐系统构建用户画像和内容标签关联[3] - 在人工智能领域与向量检索技术结合推动RAG技术发展 支持精确匹配和语义相似性搜索[3] StarRocks技术优势 - 作为新一代实时分析数据库 原生支持全文检索功能 通过优化倒排索引结构实现高效文本查询[5] - 能够无缝整合传统倒排索引与向量相似性搜索 为RAG应用提供统一数据底座[5] 镜舟数据库增强功能 - 作为StarRocks企业版本 支持分布式倒排索引构建 能处理PB级数据规模索引任务[8] - 通过智能压缩算法和并行处理技术 在保持查询性能同时显著降低存储成本[8] 腾讯实际应用案例 - 腾讯选择StarRocks构建千万级向量数据检索系统 优化倒排索引结构和查询算法[8] - 系统保持毫秒级响应时间同时支持复杂多维度查询条件 解决原有系统性能瓶颈[8] - 实际部署显示查询响应时间缩短80%以上 支持更大规模数据处理需求[8] 技术融合趋势 - 现代数据库系统探索传统倒排索引与向量检索技术相结合的创新方案[3] - 向量索引支持语义相似性搜索 倒排索引擅长精确匹配 结合满足精确检索和模糊匹配需求[3] - 混合检索方式在百万级文档规模下仍保持出色查询性能[3]
晓花科技吴淏:大模型存在“幻觉”等风险,应避免输出不合规或错误的信息
北京商报· 2025-08-01 18:25
公司AI客服系统转型 - 晓花互联网科技因传统机器人智能化不足 自去年起关注DeepSeek和文心一言等大模型技术 今年决定自主搭建基于大模型的客服系统 [2] - 公司采用"大模型+小模型"混合架构应对幻觉问题 小模型处理常规问题 大模型专注复杂场景 通过智能决策、问题改写、混合检索和重排序算法生成候选答案 最终推送知识库标准答案 [2] - 系统上线一个半月后日均排队量减少2000-3000次 首轮问题识别率从50%提升至70%-80% 有效降低用户等待负面情绪并减少后续客诉 [2] 大模型风险控制策略 - 大模型存在自身稳定性风险、幻觉风险和新模型上线稳定性风险 [3] - 应对幻觉风险的核心策略是使用RAG(检索增强生成)技术 将大模型语言能力限制在业务知识库范围内 通过精细化Prompt明确角色指令并提供反例 [3] - 采用经验话术精调模型以适应业务场景风格 并对输出结果进行质检 避免输出不合规或错误信息 [3]
数据治理对人工智能的成功至关重要
36氪· 2025-07-21 11:09
大语言模型(LLM)的应用与潜力 - 自ChatGPT发布以来,大语言模型(LLM)已成为主流,推动各行各业探索其在业务转型中的潜力 [1] - 多种技术如RAG、向量数据库、重排序器等应运而生,帮助构建更强大的AI系统 [1] - 提升AI系统业务影响力的最有效方法依然是数据 [1] 人工智能系统在企业中的应用 - AI需要输入数据才能发挥作用,催生了RAG(检索增强生成)架构 [2] - 输入数据可以是合同、采购订单、工程文档等,具体取决于用例 [2] - 以航空公司客户服务聊天机器人为例,RAG架构包括构建知识库、索引分块文档、检索相关文档块并生成响应 [2] - 数据层的工作对业务影响更为合理和有效,知识存储的质量直接影响AI响应质量 [2] 知识库数据的问题 - 提供的文档可能与用例无关,增加噪音 [5] - 可能缺少解决任务所需的文档 [5] - 文档可能过时或未及时更新 [5] - 文档可能存在版本冲突或包含敏感信息 [5] 数据治理的发展 - 数据治理角色正在扩展,以支持AI系统和非结构化数据治理 [6] - 传统数据治理主要关注结构化数据,但GenAI的出现使其涵盖非结构化数据 [6] - 数据治理通过与业务、AI技术和数据团队协作,可构建安全、准确且可扩展的AI系统 [6] NoSQL数据库的设计 - 许多开发人员在设计NoSQL数据库时仍使用关系型思维模式 [8] - NoSQL数据库有多种类型,设计时需根据其特定用途仔细考虑 [8]
猫猫拯救科研!AI怕陷“道德危机”,网友用“猫猫人质”整治AI乱编文献
量子位· 2025-07-01 11:51
核心观点 - 通过"猫猫"威胁可暂时改善AI编造参考文献的问题 但无法根本解决幻觉现象[1][2][5] - 测试显示DeepSeek在无干预情况下会生成虚假文献链接和标题 错误率显著[8][12][13][14] - 加入猫猫提示词后模型输出真实性部分提升 但仍存在真假混杂现象[19][20][21][22][24] - 行业普遍采用RAG和联网搜索作为降低幻觉的有效手段[31][32][33] AI幻觉现象分析 - 编造文献本质是大模型基于统计规律生成文本的固有缺陷[25][26] - 当前技术无法通过道德约束提示词完全消除幻觉[28][30] - 语言模型对语义的理解程度仍存在学术争议[27] 解决方案对比 - 传统提示词工程(如猫猫威胁)效果有限且不稳定[22][24] - RAG技术通过外部知识库校正输出准确性[31] - 主流模型已集成联网搜索功能(如Gemini DeepSeek)[32] - 专业AI搜索工具(如Perplexity)在资料质量上更具优势[33][34] 用户反馈数据 - 相关小红书帖子获4000+点赞和700+评论 反映科研群体共鸣[5] - 评论区证实类似方法对其他模型(如DeepSeek)的适用性[6][24]