谷歌加入CUA战场，发布Gemini 2.5 Computer Use：让AI直接操作浏览器

产品发布与核心能力 - 谷歌DeepMind发布了基于Gemini 2.5的计算机使用模型Gemini 2.5 Computer Use，该模型允许AI直接控制用户的浏览器，执行点击、滚动和输入等操作[1] - 模型在视觉理解和推理能力的基础上，能够准确快速地完成收集网络信息与执行动作、整理杂乱笔记等任务[5] - 其核心能力是通过Gemini API中新增的computer_use工具实现的，开发者需在一个循环流程中运行，输入包括用户请求、当前环境截图和最近执行动作的历史记录[15][17] 性能基准测试表现 - 在Online-Mind2Web基准测试中，Gemini 2.5 Computer Use在官方排行榜上的成绩为69.0%，由Browserbase测量的成绩为65.7%，优于Claude Sonnet 4的61.0%和OpenAI Computer-Using Agent模型的44.3%[7] - 在WebVoyager基准测试中，其自报告成绩为88.9%，由Browserbase测量的成绩为79.9%，高于Claude Sonnet 4.5的71.4%和OpenAI模型的61.0%[7] - 在AndroidWorld基准测试中，其成绩为69.7%，高于Claude Sonnet 4.5的56.0%和Claude Sonnet 4的62.1%[7] - 模型的速度表现也优于其他几个相比较的模型[8] 当前能力局限性与可用性 - 模型在完成简单任务时准确度较高，但在执行稍微复杂的任务时容易失败，例如在维基百科上找到页面并总结信息给出中文版，或打开特定网站整理近期报道等任务均未能成功完成[9][11][12] - 开发者已可通过Google AI Studio和Vertex AI的Gemini API获取这些能力，用户也可在Browserbase托管的演示环境中试用，但最多仅支持5分钟的流程且不支持用户中途接管[13] 行业竞争与战略意义 - 谷歌DeepMind携Gemini 2.5 Computer Use入场，标志着AI智能体领域的竞争进入白热化阶段，科技巨头们正竞相定义未来的人机交互方式[25] - 这一发布被视为一个清晰的信号，表明键盘和鼠标的主导地位正受到挑战，一个通过自然语言直接驱动数字世界的时代正在加速到来[25]