喝点VC|a16z重磅分析:搜索进入“AI原生”时代,谁将主宰下一代搜索基础设施?
Z Potentials·2025-12-06 13:27

文章核心观点 - 互联网搜索正经历从为人类优化到为AI智能体(Agent)重构的根本性转变,这催生了一个全新的、多样化的AI原生搜索基础设施和服务市场 [3][5][6] - 与1990年代由少数独立产品主导的搜索竞争不同,当前的AI搜索竞争主要由提供API服务的供应商驱动,这些供应商能够快速整合前沿技术,并深度嵌入面向用户的产品中 [3][6][14] - 深度研究(Agentic Research)被认为是AI搜索最具主导性和货币化潜力的形式,客户已表现出为高质量研究结果付费的意愿 [5][18] - 构建和维护网络索引的高成本与复杂性,使得大多数企业倾向于依赖第三方搜索API服务商,而非自建基础设施 [7] - 最终目标是构建一个平衡成本、准确性和性能的AI原生搜索层,能够为智能体提供信息密度高、时效性可控的核心信息片段 [3][9] AI搜索的演进与架构转变 - 早期LLM(如2023年的ChatGPT)因未联网导致信息过时或幻觉,催生了通过检索增强模型能力的需求 [10] - GPT Researcher(一个拥有超过20,000个GitHub星标的开源项目)定义了“为推理而检索”的新范式,成为深度研究工具的原型 [10][11] - 两大关键架构转变推动了AI搜索的实现:检索增强生成(RAG)为模型提供实时信息访问;测试时计算(TTC)允许模型在推理中分配更多计算资源以改进答案 [11] - 这些转变使搜索从静态的实用程序演变为一种交互式的智能形式 [11] - 微软关闭公共必应搜索API并引导开发者转向付费的“Agent构建器”,象征了从传统索引搜索向AI工作流集成搜索的转变 [12] 当前竞争格局与市场参与者 - 当前AI搜索市场参与者可分为两类:同时提供消费者产品和API服务的公司(如Perplexity、Exa),以及专注于API服务的公司(如Parallel、Tavily) [14] - 大多数AI搜索产品都向API平台产品靠拢,通过单一集成提供搜索、爬取、信息提取和深度研究等功能 [15] - 也出现了更面向消费者的新产品,如ChatGPT的深度研究功能、Exa Websets,它们权衡了易用性与灵活性 [16] - 客户通过结果质量、API性能和成本来评估供应商,测试方法从非正式实验到精心设计的内部基准不等,有些公司会同时使用多个供应商以提高覆盖或性能 [16] - 行业早期产品差异有限,竞争主要集中在速度、定价和易集成性,但形势正在迅速变化,部分团队开始在深度研究等领域形成差异化 [22] 核心技术方法与基础设施 - 为AI构建网络索引需要不同于传统搜索引擎的AI原生架构,应聚焦于提取核心信息片段,并精细控制长度与实时性 [3] - 各公司在索引构建上采取不同方法:例如Exa采取基础设施密集型方法,部署了144块H200 GPU并维护大规模URL队列;Parallel则维护为AI Agent优化的大规模索引,每天添加数百万页面 [8] - 另一些公司如Tavily和Valyu,选择以更节省计算的方式抓取网页,但采用强化学习模型来判断页面重新抓取的频率 [8] - 构建高质量网络索引是一项计算成本高昂的壮举,涉及对PB级别数据的排序 [8] 主要应用场景与用例 - 深度研究:Agent进行多步骤、开放式研究的能力,可在几分钟内完成人类数小时的任务,是搜索API最引人注目的用例之一 [17] - OpenAI的BrowseComp基准显示,人类专家在两小时内仅能正确解决其25%的问题,凸显了AI在此领域的价值 [18] - CRM线索富集:自动查找和拼接来自不同来源的人员或公司数据,并可定期更新,将耗时的手动过程自动化 [19] - 技术文档/代码搜索:为编码Agent提供对实时、最新的代码示例和文档的访问,确保生成代码的准确性和质量 [20] - 主动、个性化的推荐:利用实时网络数据,为应用程序和Agent提供基于用户背景和偏好的个性化实时推荐 [21] 市场展望与影响 - 本次变革可能催生众多在不同维度和领域蓬勃发展的搜索服务商,而非像过去一样形成少数巨头垄断的局面 [3] - 让搜索对AI智能体更容易访问,也间接使其对人类更容易访问,有助于改善被广告和SEO内容充斥的传统搜索体验 [23] - 随着搜索成为AI工作流程中的原生层,正在涌现出新的、更引人注目的用例 [20] - 供应商在索引方法上的不同权衡,预计将随时间推移演变为更大的差异化,这是值得关注的领域 [22]