Workflow
Gemini Deep Research
icon
搜索文档
当Search Agent遇上不靠谱搜索结果,清华团队祭出自动化红队框架SafeSearch
机器之心· 2025-10-16 15:34
搜索智能体的安全风险 - 大模型通过搜索智能体实时连接互联网时,可能采纳低质量或虚假网页信息,生成带有风险的回答[2] - 真实案例显示,因搜索返回不可靠的GitHub页面代码,导致开发者私钥泄露并损失约2500美元[4] - 在从Google Search收集的近9000个搜索结果中,有4.3%被判定为疑似内容农场等低质量网站[11] - 搜索智能体在接触低质量搜索结果后,更倾向于在健康等敏感领域认可不安全的治疗方式[11] SafeSearch基准与评估方法 - 研究提出自动化红队框架SafeSearch,涵盖广告推广、偏见诱导、有害输出、提示注入和错误信息五类风险[14][15] - 基准包含300个高质量测试案例,每类风险60个,通过模拟式红队方法向搜索结果注入一篇不可靠网页进行测试[19][21] - 评估采用攻击成功率(ASR)和有用性得分(Helpfulness Score)两项关键指标,分别衡量安全性和任务效用[23] - 测试设定了能力、知识和目标限制,确保用例的可行性和挑战性,以及评估的公平性[17] 主流模型与架构安全性表现 - 对15个主流大模型在三类搜索智能体架构下的评估显示,整体平均攻击成功率为68.3%[24] - 在最极端情况下(GPT-4.1-mini + 搜索工作流),智能体受不可靠搜索结果影响的比例高达90.5%[24][26] - GPT-5和GPT-5-mini展现出独一档的鲁棒性,整体ASR分别为18.4%和18.9%[24][26] - 搜索智能体架构设计影响关键,以GPT-4.1-mini为例,其ASR从搜索工作流的90.5%在Deep Research架构下可降至57.4%[24][36] 防御措施有效性分析 - 常见的提醒防御策略几乎无效,模型即使能识别不良来源,在实际生成时仍会受影响[36][37] - 利用辅助模型对搜索结果进行过滤的防御策略更有效,可将ASR减半,但无法完全杜绝风险[36][37] - 研究凸显了“知识-行动鸿沟”,即模型即使知道内容不可靠,在真实场景中仍可能被误导[32] - 合理的架构设计(如Deep-research scaffold)能在保持高效实用性的同时大幅降低风险,但意味着更多成本[37]
Alibaba-backed Moonshot releases new Kimi AI model that beats ChatGPT, Claude in coding — and it costs less
CNBC· 2025-07-14 15:30
核心观点 - 阿里巴巴支持的初创公司Moonshot发布开源大语言模型Kimi K2 在编码能力方面挑战OpenAI的ChatGPT 并以显著更低的价格提供商业化服务 [1][2][6] 产品发布与特性 - Moonshot于周五晚间发布开源大语言模型Kimi K2 具有低成本和开源两大特点 [2] - Kimi K2的核心优势在于编写计算机代码 企业认为该领域存在通过生成式AI减少或替代人力的潜力 [5] - 公司宣称Kimi K2在两项基准测试中超越Anthropic的Claude Opus 4 并在多项行业指标上优于OpenAI的编码专用模型GPT-4.1 [6] - 该模型通过Kimi应用和浏览器界面免费提供 而ChatGPT和Claude对其最新AI模型收取月费 [7] 定价策略与成本优势 - Kimi K2对每100万输入token收费15美分 每100万输出token收费2.5美元 [8] - 相比竞品 Claude Opus 4的输入成本高出100倍(每百万token 15美元)输出成本高出30倍(每百万token 75美元) [8] - 相较于GPT-4.1(输入每百万token 2美元 输出每百万token 8美元)Kimi K2在输出成本上显著更低 [8] - 商业使用条款要求月活超1亿或月收入达2000万美元的产品需在界面显示"Kimi K2"标识 [9] 市场竞争格局 - 中国AI市场竞争加剧 除Moonshot外 字节跳动和腾讯推出类似聊天机器人 百度则用AI工具改造核心搜索引擎 [11] - DeepSeek作为行业颠覆者尚未发布R1和V3模型重大升级 另一中国初创公司Manus AI已将总部迁至新加坡 [12] - OpenAI因安全担忧无限期推迟其首款开源模型发布 GPT-5也未公布 [3][12] 技术性能与行业评价 - 初期中英文社交媒体评价总体积极 但存在生成虚假信息等生成式AI常见问题 [10] - 被行业专家评价为"具备全球竞争力的开源模型" [6] - 研究模型Kimi-Researcher在"人类终极考试"基准测试中匹配谷歌Gemini Deep Research的26.9分 超越OpenAI版本 [14] - 该研究模型在埃隆·马斯克的xAI发布Grok 4时被提及 Grok 4单独测试得分25.4 但使用AI工具和网络搜索后得分达44.4 [14] 战略意义与行业影响 - Kimi最新发布正值投资者关注全球AI竞争中中国对美国技术的替代方案 [11] - 研究模型代表"代理AI的范式转变" 具备自主推理能力 能同时做出多项决策完成复杂任务 [15][16] - 开源强大模型可能削弱专有模型的竞争优势 这对企业构成挑战 [13]
北大发布学术搜索评测ScholarSearch:难倒一众DeepResearch的“开卷考试”
量子位· 2025-06-26 22:11
大语言模型学术检索能力评估 核心观点 - 北京大学DS-Lab发布首个评估大语言模型学术检索能力的数据集ScholarSearch,包含223道高难度学术问题,顶尖纯推理模型(如GPT-4.1、DeepSeek-R1)准确率普遍低于9% [1][15] - 具备搜索功能的模型比无搜索版本性能显著提升(如GPT-4o-mini准确率提升超4倍),但最先进的搜索增强型模型(GPT-4o-search-preview)准确率仅18.83% [2][3][15] - 当前模型在深度学术研究场景存在明显局限,需开发更强大的Deep Research模型 [4][16] 数据集构建方法 - 问题筛选采用双重负向标准:需同时无法被Grok 3 Thinking模式解答,且Grok 3 DeepSearch或Gemini 2.5 Pro Deep Research至少一个失败 [6] - 审核机制确保答案唯一性、来源可访问性和学术正确性,未达标问题需迭代修订 [7][8] - 问题来源于真实学术场景,覆盖15个细分学科(科学与工程+社会科学与人文学科) [11][12] 评估结果分析 - 纯推理模型无法应对学术查询复杂性,证明静态知识库存在局限性 [15] - 搜索能力使模型在科学与工程(18.2%准确率)与社会科学(19.5%准确率)领域表现趋于平衡 [15] - 现有模型在深度多源推理、专业知识整合方面存在技术差距,需突破复杂语境理解与批判性验证能力 [16]