Workflow
RAG(检索增强生成)
icon
搜索文档
百亿向量,毫秒响应:清华研发团队向量数据库 VexDB 首发,攻克模型幻觉难题
AI前线· 2025-09-25 16:04
文章核心观点 - 生成式AI的幻觉问题已成为其深入企业级核心应用的主要障碍,尤其在医疗、金融等高风险领域,模型可能生成虚假信息,引发业务风险[2][6][8] - 业界采用检索增强生成(RAG)方案来约束大模型输出,其性能瓶颈集中在检索环节,检索的准确性、速度和稳定性直接决定AI应用的成败[9][11] - 向量数据库作为RAG架构的核心组件,通过高效的非结构化数据语义检索,为AI应用提供可信的知识基石,是解决幻觉问题的关键基础设施[12][14] - 清华团队发布的VexDB向量数据库在精度、规模、响应速度和动态更新等维度实现突破,并在医疗、通信等行业实践中显著提升效率与可靠性[4][15][17][19][20] 大模型幻觉问题与企业级应用风险 - 大模型幻觉源于其基于统计概率的生成机制,缺乏真正的逻辑推理和事实核查能力,例如在HHEM测试中,DeepSeek-R1模型的幻觉率高达14.3%,即每7次摘要就有1次产生幻觉[6] - 企业级应用中,模型幻觉从技术问题升级为致命业务风险:医疗领域可能误导诊断并引发医患纠纷;金融领域基于虚假信息的风险评估会导致巨额资金损失[8] - 解决幻觉问题是AI技术融入企业核心业务流程的准入资格,构建可信的AI基础设施是部署关键场景的前提[8] RAG解决方案的价值与挑战 - RAG通过引入外部知识源,将大模型的生成过程约束在可控、可信范围内,而非修改模型底层算法[9] - 典型工作流程包括将企业私域知识切片、向量化并存入检索库,系统实时检索相关片段以引导模型生成可靠结果[10] - RAG性能瓶颈集中在数据处理、检索和结果整合三大环节,性能问题直接影响业务落地,例如电商智能客服检索响应超过2秒会导致用户咨询流失率上升30%[11] - 检索能力决定RAG系统天花板,某金融RAG项目通过数据去重与分层,检索效率提升40%,召回准确率从72%提升至89%[11] 向量数据库的技术必要性与发展趋势 - 传统关系型数据库在处理非结构化数据的语义搜索时力不从心,向量数据库专为高维向量相似性搜索设计,能通过计算向量距离度量语义相似性[12] - 全球向量数据库市场规模2024年为22亿美元,预计2025-2034年复合年增长率达21.9%,2034年将达151亿美元,反映企业对可靠AI基础设施的迫切需求[14] - Gartner预测到2026年,使用具有基础模型的向量数据库的公司比例将从2022年的2%升至30%[16] - 向量数据库正从RAG工具向AI数据基础设施平台演进,承担知识资产管理器、多模态语义连接器、Agent中枢引擎等复杂角色[20] VexDB向量数据库的技术突破与应用实践 - VexDB支持百亿千维向量数据毫秒级查询,召回准确度高达99%以上,并在DABSTEP非结构化数据分析测试中以领先第二名超10个百分点的成绩夺冠[4] - 关键技术突破包括高精度多路召回机制,支持稠密向量、稀疏向量检索和标量过滤,通过SQL层实现多路召回;结合HNSW与DiskANN的GraphIndex结构支持百亿规模毫秒响应[15] - 在医疗领域应用端到端RAG诊疗辅助系统,将病历生成时间从20多分钟缩短至8分钟内,效率提升超60%[17] - 在通信行业赋能营销导购与云盘服务,使客户转化率提升30%,方案产出耗时减少60%,云盘检索体验满意度超90%[19] - 支持动态更新与高可用架构,满足高并发场景下的数据一致性与业务连续性需求[20]
18 年 SEO 增长经验专家:别再收藏各种 AEO 最佳攻略了,自己动手实验才是做好的关键
Founder Park· 2025-09-23 22:19
AEO的定义与核心逻辑 - AEO(答案引擎优化)的核心目标是让内容以答案形式出现在大语言模型中,其本质是优化大语言模型以提供特定答案[9] - AEO与SEO的核心技术和思维方式高度重叠,AEO在SEO基础上增加了引用来源优化、更长的尾部问题和不同的头部竞争策略[5][50] - 大语言模型的工作机制可分为核心模型和RAG(检索增强生成)两个层面,其中RAG层通过搜索并总结结果来生成答案,这是最可控且见效最快的优化环节[27][28] AEO与传统SEO的关键差异 - 在AEO中,非常具体小众的长尾问题占据了更大流量份额,用户平均提问长度达25个词(传统搜索仅6个词)[19][21] - 头部竞争策略不同:传统搜索排名第一即获胜,而AEO答案排名取决于在所有引用来源中被提及的次数,需要尽可能增加品牌提及率[14] - 早期公司更适合AEO:传统SEO需要长期积累域名权重,而AEO可通过Reddit帖子、YouTube视频等渠道快速获得曝光,新公司发布第二天就可能出现在答案中[18] AEO的流量价值与转化效果 - ChatGPT带来的流量转化率比传统Google搜索高出6倍,用户经过多轮对话后需求更明确,转化质量显著更高[16] - Webflow公司8%的新用户注册来自大语言模型,这已成为重要用户获取渠道[47] - 流量增长自今年1月开始显著爆发,原因包括用户采纳率提升和答案可点击性增强(出现地图、购物轮播图等交互元素)[10][52] 有效的AEO优化策略 - 站内优化需重点关注帮助中心和技术支持内容,通过移入子目录、加强交叉链接、填补长尾问题空白来提升覆盖率[58][59][60] - 站外优化核心是引用来源优化,重点渠道包括YouTube视频、Reddit社区、联盟营销网站(如Dotdash Meredith旗下网站)和专业评测网站[22][30][31] - Reddit优化策略强调真实性:员工使用真实身份在相关帖子下提供高质量评论,5条高质量评论效果优于1万条垃圾评论[24][25] 行业错误认知与验证方法 - 网上大部分AEO最佳实践信息不准确,存在大量错误信息,需要自行验证策略有效性[2][36] - 验证需采用实验方法:选择200个问题分为测试组和对照组,针对测试组实施Reddit评论、YouTube视频等干预措施,观察几周后与对照组对比数据变化[43][44] - 纯AI生成内容策略行不通,排名前的内容中90%为人类创作,AI生成内容仅占10%,过度依赖AI会导致模型坍塌和观点趋同问题[53][54] 不同公司类型的AEO策略 - B2B公司应重点优化TechRadar等科技媒体引用来源,通过品牌曝光影响长决策链条[45] - 电商公司可直接追踪AI答案中购物卡片的点击转化,引用来源主要为时尚杂志和生活方式网站[45] - 早期公司建议完全放弃传统SEO,全力投入AEO,专注引用来源优化和长尾问题优化两大领域[45]
@CEO,你的下一个私人助理何必是人类
量子位· 2025-09-17 11:43
产品概述 - 智跃Agent一体机是市面上首个专门面向CEO打造的软硬一体私有化Agent,定位为开箱即用的信息管理助手[6][8] - 产品采用硬件+软件+算力+预置Agent的整合设计,搭配App实现插电即用,1小时内即可完成配置投入使用[8][13] - 产品核心关键词为超小型化和垂直化,采用12L精巧机箱设计,搭载单卡4090,实现完全本地化部署[9][28] 功能特点 - 具备信息自动收集、智能处理和清晰展示能力,支持从飞书、钉钉等内部IM系统或本地文档获取信息源[14][25] - 可生成两种模式报告:长文模式对工作进度进行详细分析,事项模式直接列出项目中事项的优先级[15][16] - 每个报告配备专属问答助手,实现专问专答、快问快答和有据回答,减少计算成本并提高准确性[23] - 报告信息完全可溯源,可定位到具体群聊内容,确保决策依据的真实性[20] 技术架构 - 采用Qwen3-30B-A3B基础模型,总参数量30B,激活参数量3B,通过任务拆分和上下文工程替代大模型[58][59] - 自研RAG系统实现多维实体提取、动态关系建立和抗幻觉能力,通过百分百溯源消除幻觉影响[54][55][56] - 针对企业常用工具如飞书、钉钉提供连接器支持快速接入,简化配置流程[62][63] - 在单卡4090机器上集成embedding模型、rerank模型和多模态模型,实现轻量化设计[60] 应用场景 - 为互联网科技公司自动分析客服聊天记录,上线第一周挖掘出超过30条未被手动上报的产品关键问题[44][45] - 在高新制造业场景中替代IM、OA功能,内置端到端加密汇报系统,实现更高保密程度[47] - 帮助非技术背景管理者透视研发进度,自动监控代码提交和任务状态,以可视化方式呈现项目真实进度[30] 市场定位 - 瞄准以信息为中心的管理痛点,实现更低部署成本和更强安全可控性,价格为68000元[42][72] - 针对中小型企业需求设计,相比市面其他私有化部署产品更便宜、更安全、更AI[48] - 目前已进入A轮融资接洽阶段,产品下一步将纵向增强Agent决策能力,横向拓展至不同岗位Agent[49][65] 行业趋势 - 2025年小模型效果大幅超越GPT-3,几十亿参数模型推理能力提升使本地化部署成为可能[38] - 垂直领域Agent创新加速,工程化能力成为建立竞争先手优势的关键因素[67][68] - 传统企业缺乏技术团队,针对实际场景打磨的垂直模型比通用模型更具实用性[69]
AI Agents与Agentic AI 的范式之争?
自动驾驶之心· 2025-09-06 00:03
AI智能体技术演进历程 - ChatGPT于2022年11月发布彻底改写AI发展轨迹 引发AI Agents和Agentic AI搜索热度飙升[2][4] - 早期专家系统如MYCIN(70年代)依赖符号推理和预设规则 缺乏学习能力和环境适应性[10] - 多智能体系统(MAS)和BDI架构(1999年)实现分布式问题解决 但仍受预编程限制[11] - 2023年AutoGPT等框架标志AI Agents落地 结合LLM与外部工具实现多步骤任务自主执行[12] - 2023年底CrewAI等系统推动进入Agentic AI阶段 多专业智能体协同分解复杂目标[12] - 谷歌2025年推出A2A协议 制定五大核心原则解决智能体互操作问题[12] AI Agents核心技术架构 - 定义为LLM和LIM驱动的模块化系统 填补生成式AI"只会说不会做"的空白[13] - 具备三大核心特征:自主性(无需人工干预) 任务特异性(专注单一领域) 反应性(适应动态变化)[16][17] - LLM作为推理决策中枢 承担目标解析 步骤分解和工具调用协调功能[21] - LIM扩展视觉感知能力 例如果园巡检AI实时识别病果和断枝并触发警报[21] - 工具集成通过"调用-结果整合"流程解决LLM知识滞后和幻觉问题[19] - ReAct框架实现推理与行动交替进行 例如ChatGPT网页搜索先判断知识缺口再调用工具[19] - Anthropic的"Computer Use"项目实现目标-行动-观察循环 控制鼠标键盘完成软件测试等任务[18] Agentic AI系统级创新 - 实现从孤立执行到协同决策的范式转变 核心在于多智能体协作解决复杂任务[24][27] - 与AI Agents关键差异体现在:广泛自主性 复杂任务协调 多智能体信息共享和跨环境学习能力[28] - 智能家居案例展示系统级智能:天气预测 能源管理和安防智能体协同实现全局目标[29] - 架构依赖两大支柱:协调层(元智能体负责任务分配和冲突解决) 共享记忆(存储任务进度和上下文)[33][36] - 动态任务分解将高级目标拆分为子任务 分配给专业智能体避免效率低下[33] - 科研助手AutoGen框架实现多智能体分工:检索 总结 整合 写作和引用智能体协同撰写综述[37] - 医疗决策支持系统集成监测 病史 治疗和协调智能体 降低误判风险并减少医生认知负担[38] 应用场景与典型案例 - AI Agents适用于客户服务 邮件筛选 内容推荐和日程管理等标准化任务[41] - Agentic AI在科研 农业 医疗和网络安全等复杂动态环境中展现优势[43] - 果园采摘场景实现多机器人协同:无人机测绘 采摘机器人 运输机器人和路径规划智能体联动[37][43] - 自动化基金申请书撰写通过多智能体协同完成文献分析 合规匹配和格式规范[43] - 企业网络安全事件响应由智能体分别处理威胁分类 合规分析和缓解方案制定[43] - ICU临床决策支持系统同步执行诊断 治疗方案制定和EHR分析 提升医疗安全性[43] 技术挑战与解决方案 - AI Agents存在因果推理缺失 LLM幻觉 知识滞后 提示敏感性和长期规划弱等痛点[50] - Agentic AI新增误差传递 协调瓶颈 涌现行为不可预测和可解释性差等挑战[50] - 十大解决方案包括:RAG提供实时外部知识 ReAct框架强化推理行动循环 因果建模区分相关性[49][52][53] - 共享记忆架构解决信息同步 元智能体协调避免混乱 工具验证机制自动修正错误[53] - 反思机制赋予自我批判能力 监控审计pipeline记录决策日志 治理架构防范安全风险[53] 未来发展方向 - AI Agents进化重点:提升主动推理能力 深化工具集成(结合机器人硬件) 强化因果推理[57] - Agentic AI突破方向:规模化多智能体协作(支持上千智能体) 领域定制化 伦理治理[57] - Absolute Zero框架探索零数据学习 实现自我驱动式的科研假设生成和验证[57] - 终极目标是从自动化工具进化为人类协同伙伴 适应高风险领域共同决策[58] - 需突破因果推理深度化 可解释性透明化和伦理安全体系化三大瓶颈[59]
什么是倒排索引(Inverted Index)?
搜狐财经· 2025-09-04 12:14
倒排索引技术概述 - 倒排索引是一种将词项映射到包含该词项文档列表的索引结构 与传统正向索引相反 通过关键词快速定位文档[1] - 构建过程包括文本预处理 词典生成和倒排记录表创建三个核心步骤[1] - 适用于全文检索 搜索引擎和大规模数据分析场景[1] 技术应用领域 - 广泛应用于全文搜索引擎 实现毫秒级文本检索响应 如Elasticsearch系统[3] - 应用于日志分析系统快速定位错误信息 以及推荐系统构建用户画像和内容标签关联[3] - 在人工智能领域与向量检索技术结合推动RAG技术发展 支持精确匹配和语义相似性搜索[3] StarRocks技术优势 - 作为新一代实时分析数据库 原生支持全文检索功能 通过优化倒排索引结构实现高效文本查询[5] - 能够无缝整合传统倒排索引与向量相似性搜索 为RAG应用提供统一数据底座[5] 镜舟数据库增强功能 - 作为StarRocks企业版本 支持分布式倒排索引构建 能处理PB级数据规模索引任务[8] - 通过智能压缩算法和并行处理技术 在保持查询性能同时显著降低存储成本[8] 腾讯实际应用案例 - 腾讯选择StarRocks构建千万级向量数据检索系统 优化倒排索引结构和查询算法[8] - 系统保持毫秒级响应时间同时支持复杂多维度查询条件 解决原有系统性能瓶颈[8] - 实际部署显示查询响应时间缩短80%以上 支持更大规模数据处理需求[8] 技术融合趋势 - 现代数据库系统探索传统倒排索引与向量检索技术相结合的创新方案[3] - 向量索引支持语义相似性搜索 倒排索引擅长精确匹配 结合满足精确检索和模糊匹配需求[3] - 混合检索方式在百万级文档规模下仍保持出色查询性能[3]
晓花科技吴淏:大模型存在“幻觉”等风险,应避免输出不合规或错误的信息
北京商报· 2025-08-01 18:25
公司AI客服系统转型 - 晓花互联网科技因传统机器人智能化不足 自去年起关注DeepSeek和文心一言等大模型技术 今年决定自主搭建基于大模型的客服系统 [2] - 公司采用"大模型+小模型"混合架构应对幻觉问题 小模型处理常规问题 大模型专注复杂场景 通过智能决策、问题改写、混合检索和重排序算法生成候选答案 最终推送知识库标准答案 [2] - 系统上线一个半月后日均排队量减少2000-3000次 首轮问题识别率从50%提升至70%-80% 有效降低用户等待负面情绪并减少后续客诉 [2] 大模型风险控制策略 - 大模型存在自身稳定性风险、幻觉风险和新模型上线稳定性风险 [3] - 应对幻觉风险的核心策略是使用RAG(检索增强生成)技术 将大模型语言能力限制在业务知识库范围内 通过精细化Prompt明确角色指令并提供反例 [3] - 采用经验话术精调模型以适应业务场景风格 并对输出结果进行质检 避免输出不合规或错误信息 [3]
数据治理对人工智能的成功至关重要
36氪· 2025-07-21 11:09
大语言模型(LLM)的应用与潜力 - 自ChatGPT发布以来,大语言模型(LLM)已成为主流,推动各行各业探索其在业务转型中的潜力 [1] - 多种技术如RAG、向量数据库、重排序器等应运而生,帮助构建更强大的AI系统 [1] - 提升AI系统业务影响力的最有效方法依然是数据 [1] 人工智能系统在企业中的应用 - AI需要输入数据才能发挥作用,催生了RAG(检索增强生成)架构 [2] - 输入数据可以是合同、采购订单、工程文档等,具体取决于用例 [2] - 以航空公司客户服务聊天机器人为例,RAG架构包括构建知识库、索引分块文档、检索相关文档块并生成响应 [2] - 数据层的工作对业务影响更为合理和有效,知识存储的质量直接影响AI响应质量 [2] 知识库数据的问题 - 提供的文档可能与用例无关,增加噪音 [5] - 可能缺少解决任务所需的文档 [5] - 文档可能过时或未及时更新 [5] - 文档可能存在版本冲突或包含敏感信息 [5] 数据治理的发展 - 数据治理角色正在扩展,以支持AI系统和非结构化数据治理 [6] - 传统数据治理主要关注结构化数据,但GenAI的出现使其涵盖非结构化数据 [6] - 数据治理通过与业务、AI技术和数据团队协作,可构建安全、准确且可扩展的AI系统 [6] NoSQL数据库的设计 - 许多开发人员在设计NoSQL数据库时仍使用关系型思维模式 [8] - NoSQL数据库有多种类型,设计时需根据其特定用途仔细考虑 [8]
猫猫拯救科研!AI怕陷“道德危机”,网友用“猫猫人质”整治AI乱编文献
量子位· 2025-07-01 11:51
核心观点 - 通过"猫猫"威胁可暂时改善AI编造参考文献的问题 但无法根本解决幻觉现象[1][2][5] - 测试显示DeepSeek在无干预情况下会生成虚假文献链接和标题 错误率显著[8][12][13][14] - 加入猫猫提示词后模型输出真实性部分提升 但仍存在真假混杂现象[19][20][21][22][24] - 行业普遍采用RAG和联网搜索作为降低幻觉的有效手段[31][32][33] AI幻觉现象分析 - 编造文献本质是大模型基于统计规律生成文本的固有缺陷[25][26] - 当前技术无法通过道德约束提示词完全消除幻觉[28][30] - 语言模型对语义的理解程度仍存在学术争议[27] 解决方案对比 - 传统提示词工程(如猫猫威胁)效果有限且不稳定[22][24] - RAG技术通过外部知识库校正输出准确性[31] - 主流模型已集成联网搜索功能(如Gemini DeepSeek)[32] - 专业AI搜索工具(如Perplexity)在资料质量上更具优势[33][34] 用户反馈数据 - 相关小红书帖子获4000+点赞和700+评论 反映科研群体共鸣[5] - 评论区证实类似方法对其他模型(如DeepSeek)的适用性[6][24]
Gemini 2.5 Pro 负责人:最强百万上下文,做好了能解锁很多应用场景
Founder Park· 2025-06-30 19:47
长上下文技术优势 - Gemini系列在百万级长上下文处理上具有显著领先优势,尤其是Gemini 2 5 Pro能直接遍历整个项目代码,带来差异化体验[1] - 长上下文将引发产品交互革新并创造全新应用场景[2] 当前技术瓶颈与发展方向 - 百万级token上下文质量未达完美前,盲目扩大规模意义有限[3][5] - 成本下降后千万级token上下文将成为标准配置,对编码等场景产生革命性影响[3][35] - 当前主要瓶颈在于短上下文模型中信息源间存在注意力竞争[8] 记忆机制差异 - 权重内记忆(in-weights memory)存储预训练知识但难以更新,上下文内记忆(in-context memory)更易修改[6] - 三类需上下文补充的知识:时效信息/私人信息/罕见事实(互联网出现少于2次的内容)[7] RAG协同效应 - RAG通过向量检索实现海量信息粗筛,与长上下文精细处理形成互补而非替代关系[10][11] - 企业级数十亿token知识库场景仍需RAG,两者协同可提高信息召回率[11] 推理能力关联 - 长上下文能力与推理表现存在深层联系,输出反馈输入可突破网络深度限制[14] - Agent既消耗长上下文记录状态,又能主动提供上下文获取服务[15][16] 开发者实践建议 - 问题应置于上下文末尾以利用缓存机制,前置会导致每次请求重新处理[22] - 避免将长上下文作为"数据垃圾桶",无关信息会降低多关键信息检索性能[23] - 上下文缓存可使后续请求成本降低75%,特别适合固定文档/代码库场景[20][21] 评估体系演进 - "大海捞针"式单信息检索测试已过时,强干扰环境/多关键信息检索成为新重点[27] - 检索与合成评估(如文本总结)更能体现真实能力,但自动化评估仍具挑战性[28] 成本与规模限制 - 千万级token推理测试已获良好质量数据,但单次服务器启动成本过高制约商业化[30] - 百万级上下文质量优化优先于规模扩张,完美质量将开启未知应用场景[34] 未来三年展望 - 千万级token上下文将使AI编码助手完整处理大型项目,超越人类程序员工作模式[35] - 算法创新与推理工程并重,需专业团队解决百万级token服务化难题[36]
全面拥抱AI后,OceanBase推出开箱即用RAG服务
南方都市报· 2025-05-17 17:32
公司战略升级 - 公司升级AI战略,从一体化数据库向一体化数据底座演进,通过一套引擎支持TP/AP/AI混合负载、向量数据库及SQL与AI混合检索 [1][2][4] - CEO通过全员信宣布公司全面进入AI时代,CTO提出构建Data×AI能力,推动战略演进 [1][4] - 蚂蚁集团支持公司在金融、医疗、生活等核心场景实践Data×AI理念,并继续推动开源开放 [4] 新产品发布 - 发布PowerRAG,提供开箱即用的RAG服务,打通数据层、平台层、接口层与应用层全流程,支持文档和对话API接口 [1][5][7] - PowerRAG旨在解决传统RAG开发周期长、维护成本高、调试困难等问题,支持文档知识库、智能对话、图像比对等场景快速开发 [5][7] - 发布业内首个"共享存储"产品,实现对象存储与TP数据库深度集成,TP负载存储成本最高降低50% [9][10] - "共享存储"采用多级缓存架构、自研LSM-Tree引擎等技术,支持毫秒级响应,覆盖TP、时序类、OLAP等业务场景 [10] 技术能力突破 - 向量性能达业内领先水平,基准测试显示优于三款开源向量数据库 [7][8] - 混合检索能力增强,通过自研向量算法库、内核级多模查询实现更快更准的检索 [9] - OB Cloud上线百度云,已支持阿里云、华为云、腾讯云、AWS、Google Cloud等六大公有云平台,覆盖超100个可用区 [10] 行业应用与客户案例 - 公司数据库连续十余年支撑"双11",服务金融、政务、运营商等2000多家客户 [7] - 客户案例包括联通软研院基于OceanBase开发AI助手,银泰商业打造零售业智能问数平台 [7] - 行业共识认为AI时代数据存在四大挑战:获取成本高、行业数据稀缺、多模态处理难、质量评估难 [1]