搜索智能体

搜索文档
当Search Agent遇上不靠谱搜索结果,清华团队祭出自动化红队框架SafeSearch
机器之心· 2025-10-16 15:34
搜索智能体的安全风险 - 大模型通过搜索智能体实时连接互联网时,可能采纳低质量或虚假网页信息,生成带有风险的回答[2] - 真实案例显示,因搜索返回不可靠的GitHub页面代码,导致开发者私钥泄露并损失约2500美元[4] - 在从Google Search收集的近9000个搜索结果中,有4.3%被判定为疑似内容农场等低质量网站[11] - 搜索智能体在接触低质量搜索结果后,更倾向于在健康等敏感领域认可不安全的治疗方式[11] SafeSearch基准与评估方法 - 研究提出自动化红队框架SafeSearch,涵盖广告推广、偏见诱导、有害输出、提示注入和错误信息五类风险[14][15] - 基准包含300个高质量测试案例,每类风险60个,通过模拟式红队方法向搜索结果注入一篇不可靠网页进行测试[19][21] - 评估采用攻击成功率(ASR)和有用性得分(Helpfulness Score)两项关键指标,分别衡量安全性和任务效用[23] - 测试设定了能力、知识和目标限制,确保用例的可行性和挑战性,以及评估的公平性[17] 主流模型与架构安全性表现 - 对15个主流大模型在三类搜索智能体架构下的评估显示,整体平均攻击成功率为68.3%[24] - 在最极端情况下(GPT-4.1-mini + 搜索工作流),智能体受不可靠搜索结果影响的比例高达90.5%[24][26] - GPT-5和GPT-5-mini展现出独一档的鲁棒性,整体ASR分别为18.4%和18.9%[24][26] - 搜索智能体架构设计影响关键,以GPT-4.1-mini为例,其ASR从搜索工作流的90.5%在Deep Research架构下可降至57.4%[24][36] 防御措施有效性分析 - 常见的提醒防御策略几乎无效,模型即使能识别不良来源,在实际生成时仍会受影响[36][37] - 利用辅助模型对搜索结果进行过滤的防御策略更有效,可将ASR减半,但无法完全杜绝风险[36][37] - 研究凸显了“知识-行动鸿沟”,即模型即使知道内容不可靠,在真实场景中仍可能被误导[32] - 合理的架构设计(如Deep-research scaffold)能在保持高效实用性的同时大幅降低风险,但意味着更多成本[37]
搜索范式革命:纳米AI与谷歌的「超级搜索智能体」共识
36氪· 2025-06-12 19:27
行业趋势 - 2025年"智能体化"将成为现实,AI应用将具备意图理解与任务执行能力,搜索引擎作为流量入口将率先完成这一转型[2] - 传统搜索引擎的信息筛选模式将被颠覆,"超级搜索"概念落地,实现从信息搬运到生产力工具的转变[2][3] - AI搜索3.0时代核心是"任务引擎",超越2.0时代的答案引擎,直接交付可执行解决方案[6][8] 技术演进 - AI搜索1.0保留网页排序但加入AI Overview功能,本质仍是信息聚合[5] - AI搜索2.0进化为答案引擎,Perplexity等原生搜索引擎崛起,但用户感知仍接近基础大模型对话[5] - 超级搜索需具备五大能力:任务自动规划、多模型协作、高维信息认知、多模态输出、个性化知识库整合[9][10][11][12][13] 竞争格局 - 谷歌AI Mode与纳米AI搜索在智能体能力覆盖上最均衡,New Bing强于基础体验但缺乏深度执行[14] - 纳米AI搜索2025年4月以2.77亿月访问量居中国第一全球第二,远超Perplexity(1.18亿)和百度AI(2826万)[19][20] - 全球市场纳米AI月访问量达3.1亿次,为Perplexity三倍,成为最大AI原生搜索引擎之一[21] 产品创新 - 纳米AI突破APP信息孤岛实现全域检索,结合自研MCP工具与传统搜索技术积累[22] - 首创"搜商"概念,通过思维链推理实现自适应任务规划,支持模糊/复杂问题拆解[22] - 医学课题案例中可自动输出PDF报告,城市转型等开放性问题能生成专业级研究报告[26] 生态构建 - 纳米AI集成80余款大模型和100多个MCP工具,强调多模型协作而非商业壁垒[26] - 谷歌依托Gemini大模型+Chrome浏览器+A2A协议构建技术生态,纳米AI以快速迭代见长[33] - 360发布的超级搜索智能体实现四大自动化:任务分解、规划、工具调用、执行,支持跨平台搜索与信源验证[30][31] 市场影响 - 搜索引擎将从广告入口转型为生产力入口,交付门槛趋近零的高质量解决方案[16] - 中国厂商首次进入定义行业标准阶段,纳米AI在Mary Meeker报告中位列中国AI应用第四[27] - 行业竞争转向Agent产品设计,核心是生态整合效率与PMF达成速度[33]
搜索Agent最新高效推理框架:吞吐量翻3倍、延迟降至1/5,还不牺牲答案质量丨南开& UIUC研究
量子位· 2025-05-29 09:08
大语言模型搜索智能体效率优化 - 大语言模型驱动的搜索智能体通过动态拆解问题、交错执行推理和检索来解决复杂任务,展现强大能力 [1] - 深度交互存在显著效率痛点,包括检索慢、不准等问题拖慢整体流程 [2][3] - SearchAgent-X框架实现吞吐量提升1.3-3.4倍,延迟降至1/1.7-1/5,且不牺牲答案质量 [3] 检索效率瓶颈分析 - 检索精度存在非单调关系:过低精度导致更多轮次检索,过高精度则计算资源消耗过大 [5][6] - 研究表明系统吞吐量随近似检索精度先升后降,超过最佳点后检索成本反噬效率 [6] - 检索延迟微小增加可导致端到端延迟放大高达83倍,与KV-cache命中率骤降相关 [11] 延迟放大核心原因 - 不当调度导致55.9%的token被不必要重计算,因长任务KV-cache被短任务抢占 [12] - 异步检索与生成时间错位使25%序列经历检索停滞,错过调度批次 [13] SearchAgent-X优化机制 - 优先级感知调度动态排序请求,核心理念是"让最有价值的计算优先" [17][18] - 无停顿检索采用自适应提前终止策略,判断检索成熟度与LLM就绪状态 [19][20][22] 性能验证结果 - 离线推理吞吐量比基线高1.3-3.4倍,延迟降至20%-60% [27] - 在线推理完成请求量多1.5-3.5倍,高负载时达基线5.8倍 [27] - 六个数据集测试显示生成准确率与精确检索基线相当,部分数据集因扰动略有提升 [28][29] 技术组件贡献度 - 优先级调度使KV-cache命中率从0.07提升至0.51,延迟降低35.55% [30] - 无停顿检索进一步将命中率提升至0.65,微小时间节省显著影响端到端延迟 [31] 行业应用启示 - AI智能体需平衡工具性能与整体工作流匹配度,单一组件并非越高越好 [33] - 复杂系统中微小延迟和调度不当会产生雪崩效应,需系统性优化 [34]