Workflow
PageRank算法
icon
搜索文档
喝点VC|a16z重磅分析:搜索进入“AI原生”时代,谁将主宰下一代搜索基础设施?
Z Potentials· 2025-12-06 13:27
文章核心观点 - 互联网搜索正经历从为人类优化到为AI智能体(Agent)重构的根本性转变,这催生了一个全新的、多样化的AI原生搜索基础设施和服务市场 [3][5][6] - 与1990年代由少数独立产品主导的搜索竞争不同,当前的AI搜索竞争主要由提供API服务的供应商驱动,这些供应商能够快速整合前沿技术,并深度嵌入面向用户的产品中 [3][6][14] - 深度研究(Agentic Research)被认为是AI搜索最具主导性和货币化潜力的形式,客户已表现出为高质量研究结果付费的意愿 [5][18] - 构建和维护网络索引的高成本与复杂性,使得大多数企业倾向于依赖第三方搜索API服务商,而非自建基础设施 [7] - 最终目标是构建一个平衡成本、准确性和性能的AI原生搜索层,能够为智能体提供信息密度高、时效性可控的核心信息片段 [3][9] AI搜索的演进与架构转变 - 早期LLM(如2023年的ChatGPT)因未联网导致信息过时或幻觉,催生了通过检索增强模型能力的需求 [10] - GPT Researcher(一个拥有超过20,000个GitHub星标的开源项目)定义了“为推理而检索”的新范式,成为深度研究工具的原型 [10][11] - 两大关键架构转变推动了AI搜索的实现:检索增强生成(RAG)为模型提供实时信息访问;测试时计算(TTC)允许模型在推理中分配更多计算资源以改进答案 [11] - 这些转变使搜索从静态的实用程序演变为一种交互式的智能形式 [11] - 微软关闭公共必应搜索API并引导开发者转向付费的“Agent构建器”,象征了从传统索引搜索向AI工作流集成搜索的转变 [12] 当前竞争格局与市场参与者 - 当前AI搜索市场参与者可分为两类:同时提供消费者产品和API服务的公司(如Perplexity、Exa),以及专注于API服务的公司(如Parallel、Tavily) [14] - 大多数AI搜索产品都向API平台产品靠拢,通过单一集成提供搜索、爬取、信息提取和深度研究等功能 [15] - 也出现了更面向消费者的新产品,如ChatGPT的深度研究功能、Exa Websets,它们权衡了易用性与灵活性 [16] - 客户通过结果质量、API性能和成本来评估供应商,测试方法从非正式实验到精心设计的内部基准不等,有些公司会同时使用多个供应商以提高覆盖或性能 [16] - 行业早期产品差异有限,竞争主要集中在速度、定价和易集成性,但形势正在迅速变化,部分团队开始在深度研究等领域形成差异化 [22] 核心技术方法与基础设施 - 为AI构建网络索引需要不同于传统搜索引擎的AI原生架构,应聚焦于提取核心信息片段,并精细控制长度与实时性 [3] - 各公司在索引构建上采取不同方法:例如Exa采取基础设施密集型方法,部署了144块H200 GPU并维护大规模URL队列;Parallel则维护为AI Agent优化的大规模索引,每天添加数百万页面 [8] - 另一些公司如Tavily和Valyu,选择以更节省计算的方式抓取网页,但采用强化学习模型来判断页面重新抓取的频率 [8] - 构建高质量网络索引是一项计算成本高昂的壮举,涉及对PB级别数据的排序 [8] 主要应用场景与用例 - **深度研究**:Agent进行多步骤、开放式研究的能力,可在几分钟内完成人类数小时的任务,是搜索API最引人注目的用例之一 [17] - OpenAI的BrowseComp基准显示,人类专家在两小时内仅能正确解决其25%的问题,凸显了AI在此领域的价值 [18] - **CRM线索富集**:自动查找和拼接来自不同来源的人员或公司数据,并可定期更新,将耗时的手动过程自动化 [19] - **技术文档/代码搜索**:为编码Agent提供对实时、最新的代码示例和文档的访问,确保生成代码的准确性和质量 [20] - **主动、个性化的推荐**:利用实时网络数据,为应用程序和Agent提供基于用户背景和偏好的个性化实时推荐 [21] 市场展望与影响 - 本次变革可能催生众多在不同维度和领域蓬勃发展的搜索服务商,而非像过去一样形成少数巨头垄断的局面 [3] - 让搜索对AI智能体更容易访问,也间接使其对人类更容易访问,有助于改善被广告和SEO内容充斥的传统搜索体验 [23] - 随着搜索成为AI工作流程中的原生层,正在涌现出新的、更引人注目的用例 [20] - 供应商在索引方法上的不同权衡,预计将随时间推移演变为更大的差异化,这是值得关注的领域 [22]
掌控我们生活的算法
搜狐财经· 2025-06-10 10:36
算法定义与应用 - 算法是计算机语言编写的指令串 接受输入并执行可重复运算后输出结果 例如冒泡排序算法对数字进行排序 [1] - 算法概念正扩展至AI和机器学习领域 神经网络等算法步骤不透明 开发者亦难以完全理解其运作机制 [3] 社交媒体算法 - Facebook新闻推送算法每月影响28亿用户 通过神经网络分析10万个因素对内容评分 实现个性化推送 [5] - 算法复杂性导致平台可能优先推送吸引眼球但不符合社会公益的内容 引发公众要求调整的压力 [5] 天气预报算法 - 英国统一模型算法基于斯托克斯方程 通过渐进变化近似求解大气状态 次日气温预测误差2℃内准确率达92% [6] - 计算机处理器速度提升使算法能更快处理数据 显著改善预测精度 [6] 图像压缩算法 - JPEG算法通过舍弃部分颜色信息保留亮度信息实现高效压缩 人眼对亮度敏感度是颜色的500-1000倍 [7][9] - 算法基于人类视觉分辨力有限的特点 平衡图像质量与传输效率 [7] 搜索引擎算法 - 谷歌PageRank算法通过网站链接数量和权威性分配排名 取代传统文字匹配搜索方式 [10] - 当前搜索算法整合数百种因素 包括用户位置 设备类型和时间段 结果呈现高度个性化 [12] 金融交易算法 - 高频交易算法利用全球交易所时差进行快速交易 单笔利润微小但累计可观 [13] - 超50%金融决策依赖算法 部分基金采用AI分析CEO采访用词等非传统数据提升决策质量 [15] 加密算法 - RSA算法利用大素数乘积作为公钥 因数分解难度保障安全性 当前量子计算机对其构成潜在威胁 [16][17] - 公钥加密私钥解密的机制实现信息保密传输 实际应用中素数规模极大增强防破解能力 [17] 医疗健康算法 - 分诊算法通过问题序列评估紧急程度 决定医疗资源调配优先级 [18] - AI影像识别算法在骨折和糖尿病视网膜病变检测中可靠性超过专业医生 已用于医院辅助诊断 [18] 互联网基础协议 - 互联网协议套件通过数据包分片传输和动态路由选择 确保网络局部中断不影响整体通信 [19] - IPv6地址系统提供近乎无限的IP地址资源 解决原IPv4地址枯竭问题 [21] 科研模拟算法 - 蒙特卡罗算法通过重复模拟物理现象预测结果 最初用于核武器研发中的链式反应分析 [22] - 算法名称源于纸牌游戏测试 现广泛应用于复杂系统的概率计算 [22]