Agentic Search
搜索文档
先解行为,再训Agent:CMU开源首份Agentic Search日志数据,把Agent拆开给你看
机器之心· 2026-02-09 09:18
Agentic Search 行为研究的开创性数据集 - 卡内基梅隆大学团队基于DeepResearchGym平台,发布了首个开源的Agentic Search行为日志数据集,该数据集包含超过1400万条搜索请求和约400万个会话,数据来自横跨25个国家的近600个IP地址,并经过了严格的匿名化与清洗处理 [7][13][14] - 该研究填补了当前评测体系主要基于构造题目、缺乏对真实环境中智能体检索行为系统观察的空白,为观察与评估Agentic Search行为提供了首个大规模、可复现的数据基础 [2][7] 会话划分与任务意图分析框架 - 研究提出了“语义+时间”联合的会话切分策略,利用LLM和查询向量表示训练模型来划分会话,最终得到约400万个session,克服了传统固定时间阈值方法在智能体高频并发请求场景下的不足 [16][17][19] - 研究沿用经典的Web搜索目标分类,通过LLM将多轮会话的意图划分为三类:陈述型/事实检索、过程型/操作步骤检索、推理型/分析比较检索,统计显示日志中以陈述型任务为主 [22][25] - 不同任务意图在会话长度和检索配置上表现出明显差异,例如过程型任务更倾向一次性拉取更多文档,而推理型任务的查询文本往往更长、前后变化幅度更大 [22] 智能体检索轨迹的动态模式 - 研究将相邻查询之间的改写动作划分为四类:专化、泛化、探索、重复,并发现智能体呈现出明显的“下钻偏好”,即专化与探索使用频率较高,泛化相对稀少 [26][27] - 在大量事实型会话的后期,重复动作显著增多,形成“重试循环”,这可以被视为系统进入“原地重试”的潜在停滞信号 [27][29][41] - 智能体也表现出“重置-再细化”模式,即先在一个宽泛主题上做专化,随后通过泛化进行轻量级回溯,再沿着另一个侧面重新专化,整体上泛化更像是在不同细化分支间切换的工具 [30] 检索信息采纳率的关键指标与发现 - 研究提出了CTAR指标,用于间接衡量新的查询在多大程度上受到了既有检索信息的影响,计算方法是通过检查新查询中的新词是否在历史检索结果中以词面形式出现 [33][34][44] - 整体CTAR超过一半,达到54.35%,表明在相当多的步骤中,智能体会从已获取信息中采纳术语和约束 [34][37] - 不同改写动作的CTAR存在显著差异:专化动作的CTAR为78.35%,探索动作为69.59%,均明显高于平均水平;而重复动作的CTAR仅为20.92%,说明其更可能是表述微调而非基于新信息的策略调整 [35][37] - 历史上下文具有额外贡献,当纳入更早步骤的文档后,CTAR稳定提升,说明部分新词来源于更早的检索信息,智能体会一定程度上“回溯”历史上下文 [36] 对智能体搜索系统设计的启示 - 系统设计可将重复动作及其低CTAR值视为停滞信号,并基于此检测和中断重试循环,强制触发泛化或探索策略 [41][43] - 检索预算应随任务意图与轨迹动态自适应调整,而非采用全局统一配置,例如过程型任务更依赖一次性较宽的文档覆盖,推理型任务则更需要多轮细化与验证 [42] - 建议将CTAR等“信息采纳率”指标纳入系统监控与调度逻辑,当观测到CTAR长时间偏低或在特定模式下急剧下降时,可触发算法层或工作流层面的干预 [43]
Etsy (ETSY) FY Conference Transcript
2025-05-14 04:10
纪要涉及的行业和公司 - **行业**:电子商务行业 - **公司**:Etsy公司,旗下有Depop、Reverb等子公司 纪要提到的核心观点和论据 宏观环境与消费者状态 - **核心观点**:Etsy市场具有韧性,虽宏观环境波动,但消费者支出未出现明显变化,供应冲击可能带来顺风,通胀可能带来逆风,目前难以判断两者净影响 [6][7][8] - **论据**:疫情前12个月Etsy的GMV约为49亿美元,2024年接近110亿美元,多数买家在疫情后留存;过去经历消费者供应冲击时,Etsy卖家表现出较强韧性,价格冲击时也未像其他商家那样大幅提价;2023年通胀飙升时,Etsy面临逆风 [5][7][8] 竞争环境 - **核心观点**:电子商务市场竞争激烈,Etsy通过发挥自身优势、加强营销和突出差异化来应对竞争 [11][13][15] - **论据**:市场上有众多竞争对手,如亚马逊、沃尔玛、Timu和Xi'an等;Etsy的MarTech不断改进,能够进行有利可图的投资;Etsy强调支持本地卖家、避免关税,通过营销和信息传递突出这一优势;Etsy提供独特、创意和手工商品,与多数电商销售相同产品的模式不同,具有差异化价值 [11][12][13][15] 关税影响 - **核心观点**:Etsy直接受关税影响较小,公司积极采取措施帮助卖家应对 [16][21][22] - **论据**:仅略超1%的GMV来自美国从中国进口的商品,约25%的GMV涉及美国与欧洲之间的贸易;公司成立专门团队跟踪关税动态,与卖家沟通业务趋势,在卖家论坛提供支持,并在华盛顿进行游说;为买家提供商品本地采购和关税相关的上下文参考信息 [16][21][22][23] 增长策略 - **核心观点**:Etsy在2024年调整策略,优先进行长期投资,虽有机会成本,但已取得显著进展,预计今年将看到收益 [26][28][41] - **论据**:2024年将大部分团队转向构建长期差异化的基础设施,如重新架构搜索引擎、优化屏幕布局、推动应用发展和提升礼品体验等,为此牺牲了数百亿美元的增量GMV;目前客户体验有显著改善,如搜索引擎有了质量评分,应用端GMV占比达44.5%,首次购买者在应用端的购买量增加,应用端GMV增长远超整体GMV;今年约三分之一的工程团队进行增长黑客活动,其余继续专注于长期差异化项目 [28][30][38][39][41] 应用发展 - **核心观点**:Etsy应用有很大发展潜力,通过以应用为中心的设计和数据利用,有望吸引更多客户并提高GMV占比 [46][47] - **论据**:目前只有47%的活跃买家在过去12个月使用过应用,与同行相比渗透率较低;以应用为中心的设计能创造沉浸式体验,收集更多数据,提供更好的推荐,吸引客户回流;移动网页访问量较大,希望将其转化为应用访问量 [46][47] 营销与AI应用 - **核心观点**:AI和全漏斗营销将助力Etsy提升GMV,Etsy在AI合作中具有优势 [48][52][53] - **论据**:Agentic Search将揭示电商产品的同质化,Etsy提供的独特、个性化商品将满足消费者对选择的需求;Etsy是许多大型模型运营商的早期合作伙伴,因其拥有大量非结构化数据集和强大的工程文化;Etsy历史上擅长在谷歌搜索中满足特定产品需求,借助大语言模型(LLMs)可成为消费者购物旅程的起点,提供更有针对性的营销和浏览体验 [48][51][52][53][54] 收入与利润率 - **核心观点**:长期来看,GMV增长是收入增长的关键,近期通过支付服务和广告业务提升了收入和利润率,预计2025年利润率保持稳定 [57][64][65] - **论据**:过去几年,Etsy通过引入支付服务和发展广告业务,在GMV未增长的情况下实现了收入增长;支付服务为卖家提供了更便捷的体验,广告业务通过优化搜索技术提高了广告效果和收入;预计2025年将维持现有费率,全年毛利率与去年相当,处于低70%区间,EBITDA利润率下半年通常更强 [57][58][60][64][65] 子公司策略 - **核心观点**:Depop发展良好,其团队经验将助力Etsy核心业务;出售Reverb是因行业萎缩,对公司利润率有积极影响 [66][71][73] - **论据**:Depop是一款受年轻人欢迎的服装买卖应用,在美国增长迅速,其团队在应用和推荐方面的经验将帮助Etsy提升应用中心和个性化体验;Reverb所在的乐器行业萎缩,出售给更专注该行业的买家,出售后公司整体利润率将因减法效应而提高 [66][71][73] 其他重要但是可能被忽略的内容 - Etsy预计今年GMV将达到120亿美元,调整后EBITDA利润率为26%,自由现金流为6亿美元 [2] - Etsy卖家90%的采购来自本地,甚至在距离其100英里以内的范围 [20] - Etsy广告业务中,搜索技术的性能至关重要,通过机器学习取得了进展,能够识别卖家愿意投入的广告预算,从而增加广告收入 [59][60] - 公司一直在回购股票,认为目前股权被低估 [73]