Workflow
安全约束机制
icon
搜索文档
谷歌把电脑操作能力塞进Gemini 3.5 Flash!自己看屏幕狂点70轮
量子位· 2026-06-25 15:50
文章核心观点 - 谷歌将名为“Computer Use”的电脑操作能力集成到其Gemini 3.5 Flash模型中,使AI能够通过视觉识别屏幕元素并直接操作电脑界面,覆盖网页、桌面软件和移动端,并能执行数十步以上的循环任务[1][6][24] - 该能力的引入旨在提升Gemini 3.5 Flash在复杂、长周期任务中的实用性,并可能通过增强轻量级模型的功能来推动其市场应用[26][27][31][32] Gemini 3.5 Flash的Computer Use能力详解 - **核心功能**:AI通过截图识别屏幕上的UI元素(如按钮、输入框),并执行点击、打字、滚动、切换标签页等操作,像真实用户一样与界面交互[3][4][11][13] - **任务理解与执行循环**:模型能够理解当前任务步骤,在“读取屏幕状态→选择操作→执行”的循环中持续交互,官方演示中在真实界面进行了超过70次操作的持续探索[12][15][16][19][20] - **应用范围广泛**:能力不限于浏览器,还覆盖桌面软件和移动端界面,理论上可操作任何人机交互界面[6][24] 性能表现与模型选择策略 - **性能提升**:在官方基准测试中,集成Computer Use后的Gemini 3.5 Flash在多项任务上的表现可与前沿模型对齐,并能以更低成本、更高质量稳定接管复杂的长周期浏览器任务[26][27] - **集成于Flash模型的战略考量**:谷歌选择将Computer Use集成于最便宜、最轻量的Flash模型,而非更强大的Pro模型,是出于成本考量。因为长任务涉及数十上百次的操作循环,Flash模型速度快、成本低的特点更适合承载此类持续执行的任务[31][32] 与行业竞品的对比 - **行业背景**:电脑操作能力并非谷歌首创,Anthropic在2024年10月已向开发者提供类似能力,OpenAI也推出了能在浏览器中执行操作的“Operator”[28][29] - **谷歌的定位**:相较于竞争对手,谷歌此次动作在时间上并非最早,但其将能力内置到轻量级模型中的策略,旨在平衡功能与成本,形成差异化[30][31] 潜在应用场景 - **运营与产品测试**:可替代人工在多个网页、后台和表格之间频繁切换、点击的操作,提升效率[35] - **数据与信息整理**:适用于跨网站抓取信息并整理成结构化内容的工作流,自动化处理费时、重复的电脑操作任务[36][37]