谷歌加入CUA战场，发布Gemini 2.5 Computer Use：让AI直接操作浏览器

产品发布与核心能力 - 谷歌DeepMind发布了基于Gemini 2.5的计算机使用模型Gemini 2.5 Computer Use，该模型允许AI直接控制用户的浏览器，执行点击、滚动和输入等操作 [1] - 模型的核心能力是通过Gemini API中新增的computer_use工具实现的，其工作流程为迭代循环：模型分析用户请求、当前环境截图和动作历史记录后生成UI动作函数调用，客户端执行动作后将最新截图和URL返回模型，循环直至任务完成或终止 [11][13] - 该模型主要针对网页浏览器优化，在移动端UI控制方面也展现出潜力，但暂未针对桌面操作系统级控制进行优化 [13] 性能表现与基准测试 - 在Online-Mind2Web基准测试的官方排行榜上，Gemini 2.5 Computer Use性能达到69.0%，高于OpenAI Computer-Using Agent模型的61.3% [5] - 在WebVoyager基准测试中，模型自报告成绩为88.9%，高于OpenAI模型的87.0%；由Browserbase测量的成绩为79.9%，高于Claude Sonnet 4.5的71.4%和OpenAI模型的61.0% [5] - 在AndroidWorld基准测试中，模型性能达到69.7%，高于Claude Sonnet 4.5的56.0%和Claude Sonnet 4的62.1%，其速度表现也优于其他对比模型 [5] 实际应用演示与当前局限 - 官方演示显示，模型能准确完成从指定链接获取宠物详细信息并添加到水疗中心CRM系统，以及为艺术俱乐部整理看板笔记等任务 [3][4] - 在演示环境中，模型完成简单任务（如在维基百科上找到John Wick页面）时准确度较高，但执行稍复杂任务（如找到页面后总结信息并给出中文版，或整理指定网站的报道）时容易失败 [8] 行业竞争与战略意义 - 谷歌DeepMind发布Gemini 2.5 Computer Use标志着AI智能体领域的竞争进入白热化阶段，科技巨头正竞相定义未来的人机交互方式 [16][17] - 这一发布被视为一个清晰信号，表明通过自然语言直接驱动数字世界的时代正在加速到来，键盘和鼠标的主导地位受到挑战 [17] 安全机制与开发者资源 - 为应对用户恶意使用、模型意外行为及网页环境下的提示词注入与诈骗等风险，公司在模型训练阶段直接融入了安全机制 [14] - 公司为开发者提供了安全控制选项，包括逐步安全服务（在推理阶段由独立服务评估每个拟执行动作）和系统指令（可设定在高风险操作前必须拒绝或请求用户确认），以防止模型自动执行如损害系统完整性、绕过验证码等潜在高风险操作 [14][15] - 开发者已可通过Google AI Studio和Vertex AI的Gemini API获取这些能力，也可在Browserbase托管的演示环境中进行试用 [8]