嵌入模型

搜索文档
RAG系统设计:揭秘语义搜索被低估的核心价值与KG驱动的架构选型策略
AI前线· 2025-05-14 13:47
RAG系统与语义搜索 - RAG系统通过检索增强生成解决LLM的局限性,包括训练成本高和幻觉问题[5] - 语义搜索在RAG系统中被严重低估,其核心是将文件映射到高维测度空间实现语义匹配[10] - 语义搜索允许直接将文件作为索引,通过embedding形式与查询对比,具有处理低资源文件和长文件的灵活性[11][12] 系统设计与损失函数 - 工程是取舍的艺术,需要明确能够接受的权衡和牺牲[19] - Contrastive Loss形成多个相距m距离的紧密聚类,适用于结构紧密、方差较小的数据[21] - Triplet Loss适用于类内方差较大的数据,如同一个人在不同光照条件下的人脸图像[26][27] 距离函数与嵌入模型 - 余弦距离不符合度量空间定义但计算简单,适合推荐系统等只关注方向的场景[29][30] - 欧几里得距离适合复杂场景如电商推荐,但可能出现数值溢出和高维数据稀疏问题[35][36] - 嵌入模型选择优先级:性能/成本权衡 > 数据领域 > 损失函数 > 距离度量[42][43] 向量数据库与索引 - 向量数据库选择需考虑开源/闭源、实现语言和部署方式[45][48] - 索引方式包括哈希、树、图和倒排索引,图索引适用于大多数高维数据场景[50] - 系统设计重点是为语义搜索提供数据结构,如分层结构或Context Enrichment[53][56] KG-RAG与未来趋势 - KG-RAG能清晰描述实体关系但成本高,Lazy Graph RAG通过结合语义搜索降低成本[72][73] - 大模型正向端设备迁移,需要更快的RAG实现以适应有限资源[79] - 机器学习系统设计最佳实践是优先使用传统方法如SQL或正则表达式[81]
2.2亿美元!清华姚班天才创办的AI公司卖身
创业邦· 2025-03-08 09:17
MongoDB股价暴跌与收购事件 - 开源数据库龙头MongoDB发布2025财年Q4报告及2026财年业绩预告后股价暴跌27%,市值缩水至143亿美元,较195亿峰值蒸发50亿美元[1] - 华尔街分析师普遍维持"买入"或"持有"评级,市场态度相对积极,可能与近期收购Voyage AI有关[1] - MongoDB以2.2亿美元收购成立仅17个月的AI公司Voyage AI,该交易打破AI公司平均4.8年被收购的行业规律[14][15] Voyage AI技术实力与团队背景 - 公司由清华姚班校友马腾宇创立,其团队来自斯坦福/MIT/伯克利等顶尖院校,获"AI教母"李飞飞担任学术顾问[5][6][7] - 核心产品为嵌入模型(voyage系列)和重排序模型,能解决AI幻觉问题,在MTEB基准测试中覆盖56个数据集和112种语言[8][18] - 模型通过真实业务数据微调可实现10-20%准确率提升,已为LangChain等试点客户提供专业场景解决方案[20] MongoDB发展历程与现状 - 公司2009年推出首款文档型数据库MongoDB 1.0,2017年上市后市值峰值达335.6亿美元[24][26] - 当前面临增长瓶颈:2026财年收入预期22.4-22.8亿美元低于市场23.2亿预期,调整后EPS 2.44-2.62美元远逊于3.34美元预期[30] - 核心优势包括JSON数据模型、自动分片技术和全球50000+客户基础,但面临云服务商竞争和许可证变更争议[27][29] 战略整合计划 - 收购后将分三阶段整合:第一阶段通过API和云市场提供现有模型,第二阶段在Atlas中嵌入自动向量搜索服务[33] - 最终实现AI检索功能内置于数据库,支持语义搜索/矢量检索与传统查询的无缝衔接[31][32] - 计划引入指令调整模型简化搜索优化流程,并通过生命周期管理增强多模态能力[34]