谷歌加入CUA战场,发布Gemini 2.5 Computer Use:让AI直接操作浏览器
36氪·2025-10-08 15:06

产品发布与核心能力 - 谷歌DeepMind发布了基于Gemini 2.5的计算机使用模型Gemini 2.5 Computer Use,该模型允许AI直接控制用户的浏览器,执行点击、滚动和输入等操作 [1] - 模型的核心能力是通过Gemini API中新增的computer_use工具实现的,其工作流程为迭代循环:模型分析用户请求、当前环境截图和动作历史记录后生成UI动作函数调用,客户端执行动作后将最新截图和URL返回模型,循环直至任务完成或终止 [11][13] - 该模型主要针对网页浏览器优化,在移动端UI控制方面也展现出潜力,但暂未针对桌面操作系统级控制进行优化 [13] 性能表现与基准测试 - 在Online-Mind2Web基准测试的官方排行榜上,Gemini 2.5 Computer Use性能达到69.0%,高于OpenAI Computer-Using Agent模型的61.3% [5] - 在WebVoyager基准测试中,模型自报告成绩为88.9%,高于OpenAI模型的87.0%;由Browserbase测量的成绩为79.9%,高于Claude Sonnet 4.5的71.4%和OpenAI模型的61.0% [5] - 在AndroidWorld基准测试中,模型性能达到69.7%,高于Claude Sonnet 4.5的56.0%和Claude Sonnet 4的62.1%,其速度表现也优于其他对比模型 [5] 实际应用演示与当前局限 - 官方演示显示,模型能准确完成从指定链接获取宠物详细信息并添加到水疗中心CRM系统,以及为艺术俱乐部整理看板笔记等任务 [3][4] - 在演示环境中,模型完成简单任务(如在维基百科上找到John Wick页面)时准确度较高,但执行稍复杂任务(如找到页面后总结信息并给出中文版,或整理指定网站的报道)时容易失败 [8] 行业竞争与战略意义 - 谷歌DeepMind发布Gemini 2.5 Computer Use标志着AI智能体领域的竞争进入白热化阶段,科技巨头正竞相定义未来的人机交互方式 [16][17] - 这一发布被视为一个清晰信号,表明通过自然语言直接驱动数字世界的时代正在加速到来,键盘和鼠标的主导地位受到挑战 [17] 安全机制与开发者资源 - 为应对用户恶意使用、模型意外行为及网页环境下的提示词注入与诈骗等风险,公司在模型训练阶段直接融入了安全机制 [14] - 公司为开发者提供了安全控制选项,包括逐步安全服务(在推理阶段由独立服务评估每个拟执行动作)和系统指令(可设定在高风险操作前必须拒绝或请求用户确认),以防止模型自动执行如损害系统完整性、绕过验证码等潜在高风险操作 [14][15] - 开发者已可通过Google AI Studio和Vertex AI的Gemini API获取这些能力,也可在Browserbase托管的演示环境中进行试用 [8]