语义搜索

搜索文档
独家洞察 | 别卷错方向了!数据矢量化才是AI/RAG落地的神助攻
慧甚FactSet· 2025-07-17 12:23
在生成式人工智能成为热门话题的同时,您可能听说过一个术语叫做"检索增强生成(RAG)"。RAG解决 方案允许生成式AI模型获取它原本不知道的数据,从而减少"幻觉"的发生。这在处理专有数据、敏感信 息或模型训练时尚未出现的新数据时尤其有用。通过在模型的提示词中加入额外的数据,生成式AI可以 给给出更准确、及时和符合上下文背景的答案。 实现RAG解决方案的最佳方法之一是"矢量化"(即将文字、图像或其他信息转化成数字形式,让计算机 易于理解)。通过对数据进行矢量化,可以有效地对其进行索引、搜索和检索,用于大型语言模型(LLM) 的响应生成。FactSet慧甚拥有大量的高质量数据,通过将这些数据矢量化,我们能更快地找到、获取并 提供相关信息。 通过语义搜索检索数据 想象一下学校里的开卷考试。你的课本里有所有的答案,但你还是可能答错。这说明问题不是"有没有资 料",而是"能不能迅速找到"。 在整本教科书中寻找特定信息并非易事,即使对AI来说也是如此。在测试示例中,您可以使用教科书的 关键字索引来查找相关页面。然而,对于生成式AI,我们依赖于一个更好的解决方案:语义搜索。 我们不使用关键字索引,而是根据语义进行搜索。这涉 ...
国内60%AI应用背后的搜索公司,怎么看AI幻觉问题?|AI幻觉捕手
21世纪经济报道· 2025-05-23 08:08
AI幻觉问题与搜索环节 - AI幻觉问题部分源于搜索环节的信息失真,包括自媒体二手资料和AI生成内容被反复引用[1] - 博查作为国内60%以上AI应用的搜索服务商,3月日均调用量突破3000万次,达到微软必应的三分之一[1] - AI幻觉只能尽可能减少但很难彻底消除,主要因为信息来源本身存在不实信息[3] - 公司采用"模型+人工"双重过滤机制,包括对抗性模型体系和人工辟谣介入[4] - 搜索结果排序采用谷歌EEAT标准(专业性、经验、权威性、可信度)进行加权评分[5] AI搜索技术架构 - 核心评估指标是"语义相关性",基于自然语言匹配而非关键词匹配[6] - 网页内容质量评分分为四个区间(1-10分),分数越高回答越完整[6] - 技术架构支持百亿级数据实时检索,实现毫秒级响应[13] - 服务器规模达1万-2万台,月基础成本至少数千万元[13] - 索引库规模目标明年达到谷歌一半(5000亿条)[15] 行业竞争格局 - 博查定位为国产替代方案,相比必应具有数据安全合规和价格优势[12] - 传统搜索引擎转向AI搜索需重构向量索引系统,面临商业模式转型挑战[13] - 公司不采用GEO(生成引擎优化)技术,避免低质量内容涌入[9] - 探索全新内容合作机制,奖励高质量内容而非购买排名[9] 市场需求与发展前景 - AI搜索需求预计达人类搜索量的5-10倍,因AI会拆解问题多次调用[14] - 搜索能力将成为AI应用基础模块,类似地图和支付[14] - 国内AI生态仍在快速演化,未来2-3年形态存在较大不确定性[10] - 主要技术挑战来自基础设施的"三架马车":算法、算力、数据[15] 内容质量控制 - 重点拦截"投毒型"AI生成内容,通过风格识别和细节交叉验证[10] - 数据处理流程最快需半小时,存在技术性延时[11] - 多路召回机制下,AI厂商优先展示自家生态内容[7] - 不引入竞价排名机制,保持技术架构纯净[8]
RAG系统设计:揭秘语义搜索被低估的核心价值与KG驱动的架构选型策略
AI前线· 2025-05-14 13:47
RAG系统与语义搜索 - RAG系统通过检索增强生成解决LLM的局限性,包括训练成本高和幻觉问题[5] - 语义搜索在RAG系统中被严重低估,其核心是将文件映射到高维测度空间实现语义匹配[10] - 语义搜索允许直接将文件作为索引,通过embedding形式与查询对比,具有处理低资源文件和长文件的灵活性[11][12] 系统设计与损失函数 - 工程是取舍的艺术,需要明确能够接受的权衡和牺牲[19] - Contrastive Loss形成多个相距m距离的紧密聚类,适用于结构紧密、方差较小的数据[21] - Triplet Loss适用于类内方差较大的数据,如同一个人在不同光照条件下的人脸图像[26][27] 距离函数与嵌入模型 - 余弦距离不符合度量空间定义但计算简单,适合推荐系统等只关注方向的场景[29][30] - 欧几里得距离适合复杂场景如电商推荐,但可能出现数值溢出和高维数据稀疏问题[35][36] - 嵌入模型选择优先级:性能/成本权衡 > 数据领域 > 损失函数 > 距离度量[42][43] 向量数据库与索引 - 向量数据库选择需考虑开源/闭源、实现语言和部署方式[45][48] - 索引方式包括哈希、树、图和倒排索引,图索引适用于大多数高维数据场景[50] - 系统设计重点是为语义搜索提供数据结构,如分层结构或Context Enrichment[53][56] KG-RAG与未来趋势 - KG-RAG能清晰描述实体关系但成本高,Lazy Graph RAG通过结合语义搜索降低成本[72][73] - 大模型正向端设备迁移,需要更快的RAG实现以适应有限资源[79] - 机器学习系统设计最佳实践是优先使用传统方法如SQL或正则表达式[81]