安全约束机制 - 财报，业绩电话会，研报，新闻

安全约束机制

搜索文档

量子位· 2026-06-25 15:50

文章核心观点 - 谷歌将名为“Computer Use”的电脑操作能力集成到其Gemini 3.5 Flash模型中，使AI能够通过视觉识别屏幕元素并直接操作电脑界面，覆盖网页、桌面软件和移动端，并能执行数十步以上的循环任务[1][6][24] - 该能力的引入旨在提升Gemini 3.5 Flash在复杂、长周期任务中的实用性，并可能通过增强轻量级模型的功能来推动其市场应用[26][27][31][32] Gemini 3.5 Flash的Computer Use能力详解 - **核心功能**：AI通过截图识别屏幕上的UI元素（如按钮、输入框），并执行点击、打字、滚动、切换标签页等操作，像真实用户一样与界面交互[3][4][11][13] - **任务理解与执行循环**：模型能够理解当前任务步骤，在“读取屏幕状态→选择操作→执行”的循环中持续交互，官方演示中在真实界面进行了超过70次操作的持续探索[12][15][16][19][20] - **应用范围广泛**：能力不限于浏览器，还覆盖桌面软件和移动端界面，理论上可操作任何人机交互界面[6][24] 性能表现与模型选择策略 - **性能提升**：在官方基准测试中，集成Computer Use后的Gemini 3.5 Flash在多项任务上的表现可与前沿模型对齐，并能以更低成本、更高质量稳定接管复杂的长周期浏览器任务[26][27] - **集成于Flash模型的战略考量**：谷歌选择将Computer Use集成于最便宜、最轻量的Flash模型，而非更强大的Pro模型，是出于成本考量。因为长任务涉及数十上百次的操作循环，Flash模型速度快、成本低的特点更适合承载此类持续执行的任务[31][32] 与行业竞品的对比 - **行业背景**：电脑操作能力并非谷歌首创，Anthropic在2024年10月已向开发者提供类似能力，OpenAI也推出了能在浏览器中执行操作的“Operator”[28][29] - **谷歌的定位**：相较于竞争对手，谷歌此次动作在时间上并非最早，但其将能力内置到轻量级模型中的策略，旨在平衡功能与成本，形成差异化[30][31] 潜在应用场景 - **运营与产品测试**：可替代人工在多个网页、后台和表格之间频繁切换、点击的操作，提升效率[35] - **数据与信息整理**：适用于跨网站抓取信息并整理成结构化内容的工作流，自动化处理费时、重复的电脑操作任务[36][37]