URL Context

搜索文档
AI读网页,这次真不一样了,谷歌Gemini解锁「详解网页」新技能
机器之心· 2025-09-02 11:44
谷歌URL Context功能技术特点 - 使Gemini模型能够直接访问并处理来自URL的内容 包括网页 PDF和图像[1] - 深度解析PDF 能理解表格 文本结构甚至脚注[7] - 多模态理解 能处理PNG JPEG等图片并理解其中图表和图示[7] - 支持多种网页文件格式 HTML JSON CSV等[7] - 单次请求最多处理20个URL 单个URL内容上限为34MB[5][29] 与传统AI处理URL方式的差异 - 传统方式通过通用浏览工具或搜索引擎插件读取网页摘要或部分文本[5] - URL Context通过API指令Gemini将URL全部内容作为权威上下文进行深度完整解析[5] - 专门为开发者设计的编程接口 可实现更精准的信息提取效果[5][14] 对RAG技术的潜在影响 - 被评价为"RAG的又一颗棺材钉" 提供处理公开网络内容的简单替代方案[8][13] - 无需传统RAG流程中的文本提取 分块 矢量化 存储等复杂步骤[13] - 开发者只需几行代码就能实现更精准效果 无需搭建复杂管道[13][14] 实际应用表现 - 准确提取特斯拉50页财报PDF第4页表格中的总资产$93,941百万和总负债$39,446百万数据[14][17] - 能识别PDF末尾员工遣散信中被星号屏蔽的离职日期及脚注中的解释说明[20][22] - 采用两步检索流程 优先从内部索引缓存获取内容 未命中则进行实时抓取[25] 技术限制与行业趋势 - 无法处理需要登录或付费的"付费墙"内容[29] - 不处理YouTube视频 Google Docs等有专门API的内容[29] - 按处理内容Token数量计费 引导开发者进行高效应用设计[27] - 反映基础模型正将外部能力内置化 底层模型服务吸收原应用层数据处理工作[27]