Workflow
DeepXiv
icon
搜索文档
智源:ArXiv CLI重磅开源!2亿+开放论文,即将化身科研智能体的技能包
机器之心· 2026-04-08 08:51
核心观点 - DeepXiv是一个专为AI智能体设计的科技文献基础设施,旨在将开放科技文献从“人类可读”升级为“智能体可用”,通过提供数据接口与技能系统,支持自动化科研任务 [1][2][16] 产品定位与目标 - 项目由智源研究院联合高校与社区开发者共同研发,现已开源并免费开放使用 [3] - 旨在解决智能体高效利用科技文献的核心痛点,传统基于搜索引擎和图形界面的方式与智能体工作方式不符,制约了效率 [8][9] - 核心思路是让论文适配命令行界面交互,为自动化科研筑牢核心基础设施底座 [12] 核心能力一:数据接入 - 将开放科技文献转化为智能体可直接消费的数据格式,如JSON或Markdown,避免从PDF或HTML中艰难提取信息 [18][19] - 提供面向智能体优化的数据组织方式,包括预览功能以低成本判断相关性、分块功能支持局部精读、渐进披露功能避免一次性灌入全文 [19] - 这些设计能降低token消耗、提升检索与阅读效率,并支持复杂多步科研任务 [20] - 已覆盖全量ArXiv数据并保持每日增量更新,正在快速扩展至PubMed Central、ACM、各类*Rxiv及Semantic Scholar等源,目标建立覆盖超过2亿篇开放科技文献的统一接入层 [22] 核心能力二:一站式能力集成 - 自建专属论文搜索引擎,提供优化的检索结果及可配置的搜索模式 [24] - 超越检索,提供丰富的技能,包括文献问答、热点追踪以及针对复杂问题的深度调研 [24] - 智能体可通过内置Skills及命令行灵活调用这些能力,形成可连续调用的科研任务能力集 [24][26] - 内置深度调研Agent,可将搜索、筛选、渐进式阅读、信息提取与归纳整理串联成完整链路,直接承接高层科研任务 [26] 核心能力三:丰富的接入形式 - 提供多种接入形态以满足从智能体到开发者的全场景需求 [28] - 命令行是核心形态,智能体可无缝接入全部能力并通过编排脚本实现复杂工作流 [29] - 提供MCP接入能力,可嵌入各类智能体开发框架,使科技文献利用成为智能体标准工具 [30] - 提供Python SDK,供开发者灵活集成于高度定制化的科研智能体 [31] - 基于DeepXiv,开发者可快速封装面向具体科研任务的定制化Skills,构建可快速复用、可持续扩展的能力底座 [31] 实战演示与价值体现 - 通过一个整理“最近1个月agent memory相关论文”的典型任务,展示了DeepXiv如何将能力串联成自然的工作流 [32][34] - 工作流分解为:按主题与时间范围搜索候选论文、用brief功能低成本筛选、用head和section功能结构化定点精读、自动生成结构化交付物 [35][37][39][41] - 最终输出为包含论文标题、arXiv链接、开源状态、代码地址、基准数据集、指标与分数等信息的Markdown表格,成为可继续复用的研究资产 [42][43] - 该演示表明DeepXiv服务的是“智能体围绕科研任务主动调用文献能力并完成交付”,而非简单的论文内容搬运 [46][47][48]