文章核心观点 - 快手搜索团队提出并部署了名为CroPS的全新检索数据引擎,旨在解决短视频搜索中因依赖历史点击数据而导致的“信息茧房”问题 [2] - CroPS通过引入用户换Query数据、推荐流数据及大语言模型生成的世界知识,多视角丰富正样本信号,并结合层次化标签分配与H-InfoNCE损失函数,实现了对相关性的精细化建模 [2] - 该方案已在快手搜索业务中全量部署,服务亿级用户,并显著提升了点击率、长播率,同时有效降低了用户换Query率 [2] 背景与问题 - 当前工业界主流的向量检索模型采用对比学习范式,但训练数据的正样本高度依赖历史曝光日志中的用户交互行为(如点击),导致“自强化”循环 [5][6] - “自强化”循环使模型倾向于检索与历史高频点击内容相似的视频,导致大量潜在相关的优质长尾内容被系统性地排除在正样本之外,搜索结果变得保守且单一 [6] - 以往的学术研究多致力于改进模型结构或优化负采样策略,但无法从根本上缓解正样本来源单一所带来的“信息茧房”效应 [9] CroPS解决方案:多视角正样本增强引擎 - 查询级增强:利用用户换Query行为,当用户在改写后的查询词B下产生深度交互,该交互视频可被“回流”作为原始查询词A的正样本,以纠正模型的语义偏差 [11][12] - 系统级增强:打破搜索与推荐系统壁垒,将用户在推荐信息流中深度消费且与近期搜索词语义高度相关的视频,引入作为搜索模型的正样本 [11][13][15] - 知识级增强:引入大语言模型作为“虚拟检索器”和“内容生成器”,针对特定查询生成包含标题、描述和标签的虚拟视频元数据作为合成正样本,以突破平台存量数据的限制 [11][16][17] CroPS解决方案:精细化训练策略 - 层次化标签分配:为解决多源正样本的“可靠性差异”问题,HLA为不同来源的样本分配分层标签,让模型能够识别样本的重要程度,学习更细粒度的相关性 [19][20][21] - H-InfoNCE损失函数:在训练时,将当前样本与标签严格低于它的所有样本进行对比,突显高优先级样本的重要性,使学习目标与HLA的层级逻辑对齐,实现细粒度的语义区分 [23][28] 实验结果 - 离线实验:CroPS相较于最强基线FS-LR,在用户点击测试数据集上召回率提升9.5%(从59.6%提升至69.1%),在用户换Query测试数据集上召回率提升7.1%(从33.0%提升至40.1%)[30] - 在线A/B测试:在稠密模型上,点击率显著提升0.869%,长播放率提升0.483%,用户换Query率下降0.646% [31][36] - 在线A/B测试:在稀疏模型上,点击率提升0.783%,长播放率提升0.423%,用户换Query率下降0.614% [31][36] 总结与行业影响 - CroPS证明了在工业检索系统中,通过跨视角引入多样化正样本信号是缓解“信息茧房”问题、提升系统上限的有效方法 [33] - 该工作已被人工智能顶级会议AAAI 2026接收为Oral报告,体现了其学术与工业价值 [3] - 未来,公司将进一步探索CroPS与生成式检索方法的融合,持续挖掘大规模语言模型在搜索全链路中的潜力 [34]
AAAI 2026 Oral|快手提出全新「检索数据引擎」CroPS,打破搜索信息茧房