GUI操作
搜索文档
支持远程操控和通用GUI操作,开源版桌面虚拟同事Open Cowork来了!
机器之心· 2026-03-01 11:34
行业趋势与痛点 - AI Agent的发展正从智能对话转向任务执行闭环,核心难点在于能否像人一样操作电脑完成跨应用工作流,包括看懂屏幕、点击按钮、填写表单、整理文件并生成交付物[2] - 当前大模型在真实办公场景中,高频任务往往卡在执行层面,存在应用孤岛、流程割裂和人工瓶颈等问题,用户仍需在不同窗口间手动搬运数据[5][11] Open Cowork产品定位与核心能力 - 该产品是Claude Cowork理念的开源增强实现,旨在打造“桌面端虚拟同事”,通过一键安装让模型在安全沙箱内操作工作空间,产出专业文件并操作电脑完成跨应用流程[2][7] - 产品提供三大核心能力组合:面向交付的标准化Skills工作流技能库、支持通用GUI操作以突破API限制、以及通过飞书等平台实现的远程控制与团队协作[8][9][10][14] - 在能力对比上,该产品同时具备MCP & Skills、Remote Control和GUI Operation,而Claude Cowork缺少后两项,OpenClaw缺少GUI操作能力[8] 产品具体功能与特点 - Skills系统核心目标是产出可用的文件,支持从本地文件或大纲自动生成可编辑的PPTX、DOCX、XLSX、PDF等主流格式,并提供结构化输出,直接交付半成品或成品[9][12] - GUI模块让模型具备人类操作能力,可操作如Cursor APP等未实现MCP接口的桌面应用,进行代码迭代等任务,将Agent可用性扩展到操作系统层面[7][10] - Remote模块通过接入飞书等协作平台,打通本地执行与团队协同壁垒,使AI能远程接收指令并将产出直接同步至团队业务流[14][26] 安全架构与设计原则 - 产品采用“默认安全”设计原则,将所有操作默认限制在用户选定的workspace目录内,防止全盘扫描[16][27] - 提供基于虚拟化的强隔离方案,在Windows侧优先使用WSL2,在macOS侧适配Lima虚拟机环境,将命令执行放入隔离沙箱以降低对宿主机的误操作风险[16][17][18][27] 团队背景与开源生态 - 开发团队由多位清华大学在读的博士生和本科生组成,关注桌面端AI Agent、MCP生态与安全沙箱[24] - 项目以MIT License开源,鼓励开发者贡献新的Skills、MCP Connector、Remote集成与GUI操作优化,旨在共建可持续迭代的“桌面虚拟同事”基础设施[23]