搜索智能体 - 财报，业绩电话会，研报，新闻

搜索智能体

搜索文档

机器之心· 2025-11-18 13:08

技术挑战与现有瓶颈 - 搜索智能体（Search Agent）旨在解决知识的实时性和推理复杂性两大挑战，通过与实时搜索引擎多轮交互来分解并执行复杂任务[2] - 现有搜索智能体的核心瓶颈是缺乏过程中的自我纠错能力，早期因模糊查询导致的错误会引发连锁式错误（Cascading Errors），最终导致任务失败[2][7] ReSeek框架核心创新 - ReSeek框架由腾讯内容算法中心与清华大学联合提出，其关键创新在于引入了动态自我修正机制，允许智能体在执行过程中主动评估每一步行动的有效性[3] - 该框架扩展了Agent动作空间，引入核心的JUDGE动作，该动作在每次信息获取后被调用，用于评估新信息的有效性，并基于判断结果动态构建后续决策上下文[10][11] - 通过设计密集的中间奖励函数来训练智能体的自我评估能力，当智能体的判断与客观的“理想判断”一致时给予正奖励，反之则给予惩罚[18][20] 评估基准与实验设计 - 为公正评估智能体真实推理能力，团队构建了FictionalHot数据集，通过将真实实体替换为虚构实体并生成对应知识文档，创建一个封闭世界评测环境，以消除预训练模型“数据污染”带来的评估偏差[22][23][24] - 为确保公平比较，ReSeek采用最普遍的训练方法，在NQ和TriviaQA训练集上训练，并以精确匹配（Exact Match, EM）作为主要评估指标，在7个主流公开问答数据集上测试[26] 性能表现与结果分析 - 实验结果表明，ReSeek在3B和7B参数规模上均达到业界领先的平均性能，尤其在HotpotQA和Bamboogle等需要复杂多跳推理的基准上优势突出[29][32] - 在FictionalHot基准上，模型规模（7B vs 3B）对性能的影响显著减小，表明该基准成功消除了模型因规模增大而产生的记忆优势，能更准确衡量程序化推理能力[29] - 消融实验显示，ReSeek的性能从一轮到四轮交互单调递增，而基线模型性能在增至两轮后几乎停滞，证明ReSeek能将更多交互预算转化为真实性能增益，具备更强的自我纠错能力[34][35] - 对JUDGE机制的逐例分析显示，“积极影响”的比例在全部测试上稳定在40-50%之间，而“负面影响”比例通常低于25%，证明该组件是框架中可靠高效的关键部分[38][39] 应用前景与行业意义 - ReSeek框架的核心价值在于为需要实时数据或热点理解等复杂业务场景提供高可靠性的决策支持，其自我纠错机制能显著降低因单点错误导致全盘失败的风险[41] - 该框架代表搜索智能体从“忠实的执行者”向“批判性的思考者”演进的关键突破方向，即赋予智能体自我反思和动态纠错能力[8][41]

当Search Agent遇上不靠谱搜索结果，清华团队祭出自动化红队框架SafeSearch

机器之心· 2025-10-16 15:34

搜索智能体的安全风险 - 大模型通过搜索智能体实时连接互联网时，可能采纳低质量或虚假网页信息，生成带有风险的回答[2] - 真实案例显示，因搜索返回不可靠的GitHub页面代码，导致开发者私钥泄露并损失约2500美元[4] - 在从Google Search收集的近9000个搜索结果中，有4.3%被判定为疑似内容农场等低质量网站[11] - 搜索智能体在接触低质量搜索结果后，更倾向于在健康等敏感领域认可不安全的治疗方式[11] SafeSearch基准与评估方法 - 研究提出自动化红队框架SafeSearch，涵盖广告推广、偏见诱导、有害输出、提示注入和错误信息五类风险[14][15] - 基准包含300个高质量测试案例，每类风险60个，通过模拟式红队方法向搜索结果注入一篇不可靠网页进行测试[19][21] - 评估采用攻击成功率（ASR）和有用性得分（Helpfulness Score）两项关键指标，分别衡量安全性和任务效用[23] - 测试设定了能力、知识和目标限制，确保用例的可行性和挑战性，以及评估的公平性[17] 主流模型与架构安全性表现 - 对15个主流大模型在三类搜索智能体架构下的评估显示，整体平均攻击成功率为68.3%[24] - 在最极端情况下（GPT-4.1-mini + 搜索工作流），智能体受不可靠搜索结果影响的比例高达90.5%[24][26] - GPT-5和GPT-5-mini展现出独一档的鲁棒性，整体ASR分别为18.4%和18.9%[24][26] - 搜索智能体架构设计影响关键，以GPT-4.1-mini为例，其ASR从搜索工作流的90.5%在Deep Research架构下可降至57.4%[24][36] 防御措施有效性分析 - 常见的提醒防御策略几乎无效，模型即使能识别不良来源，在实际生成时仍会受影响[36][37] - 利用辅助模型对搜索结果进行过滤的防御策略更有效，可将ASR减半，但无法完全杜绝风险[36][37] - 研究凸显了“知识-行动鸿沟”，即模型即使知道内容不可靠，在真实场景中仍可能被误导[32] - 合理的架构设计（如Deep-research scaffold）能在保持高效实用性的同时大幅降低风险，但意味着更多成本[37]

大语言模型运行安全

搜索智能体

Artificial Intelligence

Artificial Intelligence

SafeSearch

ChatGPT Search

Gemini Deep Research

搜索范式革命：纳米AI与谷歌的「超级搜索智能体」共识

36氪· 2025-06-12 19:27

行业趋势 - 2025年"智能体化"将成为现实，AI应用将具备意图理解与任务执行能力，搜索引擎作为流量入口将率先完成这一转型[2] - 传统搜索引擎的信息筛选模式将被颠覆，"超级搜索"概念落地，实现从信息搬运到生产力工具的转变[2][3] - AI搜索3.0时代核心是"任务引擎"，超越2.0时代的答案引擎，直接交付可执行解决方案[6][8] 技术演进 - AI搜索1.0保留网页排序但加入AI Overview功能，本质仍是信息聚合[5] - AI搜索2.0进化为答案引擎，Perplexity等原生搜索引擎崛起，但用户感知仍接近基础大模型对话[5] - 超级搜索需具备五大能力：任务自动规划、多模型协作、高维信息认知、多模态输出、个性化知识库整合[9][10][11][12][13] 竞争格局 - 谷歌AI Mode与纳米AI搜索在智能体能力覆盖上最均衡，New Bing强于基础体验但缺乏深度执行[14] - 纳米AI搜索2025年4月以2.77亿月访问量居中国第一全球第二，远超Perplexity(1.18亿)和百度AI(2826万)[19][20] - 全球市场纳米AI月访问量达3.1亿次，为Perplexity三倍，成为最大AI原生搜索引擎之一[21] 产品创新 - 纳米AI突破APP信息孤岛实现全域检索，结合自研MCP工具与传统搜索技术积累[22] - 首创"搜商"概念，通过思维链推理实现自适应任务规划，支持模糊/复杂问题拆解[22] - 医学课题案例中可自动输出PDF报告，城市转型等开放性问题能生成专业级研究报告[26] 生态构建 - 纳米AI集成80余款大模型和100多个MCP工具，强调多模型协作而非商业壁垒[26] - 谷歌依托Gemini大模型+Chrome浏览器+A2A协议构建技术生态，纳米AI以快速迭代见长[33] - 360发布的超级搜索智能体实现四大自动化：任务分解、规划、工具调用、执行，支持跨平台搜索与信源验证[30][31] 市场影响 - 搜索引擎将从广告入口转型为生产力入口，交付门槛趋近零的高质量解决方案[16] - 中国厂商首次进入定义行业标准阶段，纳米AI在Mary Meeker报告中位列中国AI应用第四[27] - 行业竞争转向Agent产品设计，核心是生态整合效率与PMF达成速度[33]

量子位· 2025-05-29 09:08

大语言模型搜索智能体效率优化 - 大语言模型驱动的搜索智能体通过动态拆解问题、交错执行推理和检索来解决复杂任务，展现强大能力 [1] - 深度交互存在显著效率痛点，包括检索慢、不准等问题拖慢整体流程 [2][3] - SearchAgent-X框架实现吞吐量提升1.3-3.4倍，延迟降至1/1.7-1/5，且不牺牲答案质量 [3] 检索效率瓶颈分析 - 检索精度存在非单调关系：过低精度导致更多轮次检索，过高精度则计算资源消耗过大 [5][6] - 研究表明系统吞吐量随近似检索精度先升后降，超过最佳点后检索成本反噬效率 [6] - 检索延迟微小增加可导致端到端延迟放大高达83倍，与KV-cache命中率骤降相关 [11] 延迟放大核心原因 - 不当调度导致55.9%的token被不必要重计算，因长任务KV-cache被短任务抢占 [12] - 异步检索与生成时间错位使25%序列经历检索停滞，错过调度批次 [13] SearchAgent-X优化机制 - 优先级感知调度动态排序请求，核心理念是"让最有价值的计算优先" [17][18] - 无停顿检索采用自适应提前终止策略，判断检索成熟度与LLM就绪状态 [19][20][22] 性能验证结果 - 离线推理吞吐量比基线高1.3-3.4倍，延迟降至20%-60% [27] - 在线推理完成请求量多1.5-3.5倍，高负载时达基线5.8倍 [27] - 六个数据集测试显示生成准确率与精确检索基线相当，部分数据集因扰动略有提升 [28][29] 技术组件贡献度 - 优先级调度使KV-cache命中率从0.07提升至0.51，延迟降低35.55% [30] - 无停顿检索进一步将命中率提升至0.65，微小时间节省显著影响端到端延迟 [31] 行业应用启示 - AI智能体需平衡工具性能与整体工作流匹配度，单一组件并非越高越好 [33] - 复杂系统中微小延迟和调度不当会产生雪崩效应，需系统性优化 [34]

Artificial Intelligence

Artificial Intelligence

SearchAgent-X