OpenSeeker
搜索文档
大厂数据护城河打破!上交全开源Search Agent OpenSeeker登场
机器之心· 2026-03-31 20:19
行业现状与突破 - 高性能深度搜索智能体的开发长期被大型科技公司主导,其核心壁垒在于严格保密的高质量训练数据,这形成了坚固的数据护城河,阻碍了研究社区的创新 [2] - 上海交通大学学术团队推出的OpenSeeker是首个由纯学术团队打造、完整开源模型及100%全量训练数据的前沿深度搜索智能体,打破了这一数据垄断局面 [2] - 该成果证明,不依赖大规模算力堆砌,仅通过极高的数据合成质量,学术界同样能产出达到业界最先进水平的模型 [2] 核心技术方案 - 训练深度搜索智能体的核心在于构建高难度问答任务以激发多轮工具调用能力,并生成高质量、可复现的解题轨迹 [7] - OpenSeeker提出了基于真实网页结构的事实锚定问答构建方法,通过从海量真实网页图结构进行逆向工程,并引入实体混淆机制,将简单事实转化为复杂推理谜题,强制模型进行多步导航与深度推理 [8][9][10][11] - 为应对真实网页环境中的噪音,OpenSeeker设计了动态去噪轨迹合成策略,采用非对称上下文构建,在训练阶段让模型学习从嘈杂原始信息中预测专家级决策,从而强化核心信息提取能力 [8][12][15][19] 性能表现与数据效率 - 在约300亿参数、纯ReAct架构的同等条件下,OpenSeeker仅使用11.7千个合成样本进行单轮监督微调,便在多个前沿榜单上取得了业界最先进成绩 [2] - 在BrowseComp-ZH榜单上,OpenSeeker-v1-30B-SFT取得了48.4%的成绩,超越了阿里巴巴通义DeepResearch经过持续预训练、监督微调和强化学习多阶段复杂训练后得出的46.7% [13][17] - 在约300亿参数级别的纯监督微调模型中,OpenSeeker在BrowseComp、xbench、WideSearch榜单上全面斩获第一,成绩分别为29.5、74.0、59.4 [13][18] - 在控制数据规模可比的情况下,OpenSeeker的11.7千个样本展现出显著优势,其数据质量明显优于阿里巴巴通义实验室的同类数据组合版本 [20][21] 数据质量与难度 - 为量化数据难度,研究团队使用相同模型进行对比,结果显示其合成中文数据的每条轨迹平均需要进行46.35次工具调用,平均token长度高达76.1千,远超BrowseComp-ZH的26.98次和15.1千token [25] - 其英文数据的难度也达到了与BrowseComp-EN相媲美的水平 [25] 开源影响与社区反响 - OpenSeeker完全开源了所有训练数据和模型,为研究人员提供了高质量的数据基础,使其无需依赖企业级规模资源也能探索下一代搜索智能体 [13] - 社区评价认为,全量训练数据加上300亿参数模型的开放,让研究人员能清晰区分性能提升是源于方法创新还是闭源数据优势,真正推动了领域发展 [26][29] - 此举打破了长期存在的数据护城河,降低了前沿研究门槛,让研究者能够专注于方法创新本身,并让构建多步智能体不再受数据守门人限制 [26][28][29]