谷歌加入CUA战场,发布Gemini 2.5 Computer Use:让AI直接操作浏览器
机器之心·2025-10-08 11:18

产品发布与核心能力 - 谷歌DeepMind发布了基于Gemini 2.5的计算机使用模型Gemini 2.5 Computer Use,该模型允许AI直接控制用户的浏览器,执行点击、滚动和输入等操作[1] - 模型在视觉理解和推理能力的基础上,能够准确快速地完成收集网络信息与执行动作、整理杂乱笔记等任务[5] - 其核心能力是通过Gemini API中新增的computer_use工具实现的,开发者需在一个循环流程中运行,输入包括用户请求、当前环境截图和最近执行动作的历史记录[15][17] 性能基准测试表现 - 在Online-Mind2Web基准测试中,Gemini 2.5 Computer Use在官方排行榜上的成绩为69.0%,由Browserbase测量的成绩为65.7%,优于Claude Sonnet 4的61.0%和OpenAI Computer-Using Agent模型的44.3%[7] - 在WebVoyager基准测试中,其自报告成绩为88.9%,由Browserbase测量的成绩为79.9%,高于Claude Sonnet 4.5的71.4%和OpenAI模型的61.0%[7] - 在AndroidWorld基准测试中,其成绩为69.7%,高于Claude Sonnet 4.5的56.0%和Claude Sonnet 4的62.1%[7] - 模型的速度表现也优于其他几个相比较的模型[8] 当前能力局限性与可用性 - 模型在完成简单任务时准确度较高,但在执行稍微复杂的任务时容易失败,例如在维基百科上找到页面并总结信息给出中文版,或打开特定网站整理近期报道等任务均未能成功完成[9][11][12] - 开发者已可通过Google AI Studio和Vertex AI的Gemini API获取这些能力,用户也可在Browserbase托管的演示环境中试用,但最多仅支持5分钟的流程且不支持用户中途接管[13] 行业竞争与战略意义 - 谷歌DeepMind携Gemini 2.5 Computer Use入场,标志着AI智能体领域的竞争进入白热化阶段,科技巨头们正竞相定义未来的人机交互方式[25] - 这一发布被视为一个清晰的信号,表明键盘和鼠标的主导地位正受到挑战,一个通过自然语言直接驱动数字世界的时代正在加速到来[25]