Agent技术 - 财报，业绩电话会，研报，新闻

Agent技术

搜索文档

谷歌深夜重磅开源，深度研究Agent拿下SOTA，比GPT-5 pro便宜90%

36氪· 2025-12-12 08:49

核心观点 - 谷歌发布三项Agent相关重大更新，包括升级并向开发者开放Deep Research Agent、开源基准测试DeepSearchQA以及推出交互API，旨在强化其Gemini生态并简化Agent开发流程 [1][5][16] Deep Research Agent功能更新 - 该Agent基于Gemini 3 Pro模型构建，专为长期上下文和复杂信息综合任务优化，通过迭代式提问、搜索和识别知识空白来运行 [3][7] - 新版本功能更新包括：针对特定数据进行更深入的网页搜索、以更低成本生成深度研究报告 [3][7][9] - 在性能基准测试中，新Gemini Deep Research Agent在完整HLE测试中得分46.4%，优于Gemini 3 Pro的43.2%和GPT-5 Pro的38.9% [7] - 在成本方面，该Agent在BrowseComp基准上与GPT-5 Pro性能相当，但价格约为后者的十分之一 [3] - 该Agent已应用于金融服务、生物技术和市场调研等需要高精度的复杂领域，帮助完成初步调研任务 [9] - 为开发者提供的核心能力包括：统一信息综合（支持文件上传、网络数据分析和长上下文处理）、报告可控性（用户可定义结构和格式）、提供详细引用来源、支持JSON结构化输出以便下游应用解析 [9] - 该Agent将很快在谷歌搜索、笔记本、谷歌金融中提供，并在Gemini应用中升级 [5] DeepSearchQA基准测试 - DeepSearchQA是一个新开源的网络研究Agent基准，旨在测试Agent在复杂、多步查询任务中的全面性 [5][11] - 该基准包含900个手工设计的“因果链”任务，涵盖17个不同领域 [5][12] - 与传统的基于事实的测试不同，它衡量的是生成详尽答案集的全面性，评估研究的准确性和检索的记忆能力 [12] - 该基准还可作为衡量“思考时长”效率的工具，谷歌内部评估发现，允许Agent执行更多搜索与推理步骤时，其性能会显著提升 [12] 交互API (Interactions API) - 交互API是一个与Gemini模型和Agent交互的统一界面，通过Google AI Studio中的Gemini API公开测试版向开发者开放 [5][14] - 它原生集成了专为Agent应用开发设计的接口，可高效处理交错式消息、思维链、工具调用及状态信息等复杂上下文管理工作 [14] - 该API提供了首个内置Agent，即Gemini Deep Research Agent，未来将扩展更多内置Agent并支持开发者引入定制Agent [14] - 核心扩展功能包括：可选的服务器端状态（简化客户端代码并可能降低成本）、可解释和可组合的数据模型（便于调试和分析）、背景执行（支持长期运行的推理环路）、远程MCP工具支持（模型可直接调用MCP服务器） [15] - 它提供了一个单一的RESTful端点用于交互 [14] 战略与生态影响 - 此次更新是谷歌Gemini生态的再次扩容，通过发布交互API简化了与Gemini模型和Agent的交互流程，旨在构建更易用的开发生态 [16] - 公司未来的更新将聚焦于更丰富的输出（如原生生成图表以支持可视化分析报告）、通过MCP支持扩展连接性以更轻松访问自定义数据源，并努力将Gemini Deep Research引入企业用的Vertex AI平台 [16]