Computer Use
搜索文档
Anthropic收购 OpenAI抢人 “硅谷双强”打的什么算盘?
第一财经· 2026-02-26 12:57
公司战略与收购案 - Anthropic宣布收购视觉驱动计算机自动化AI初创公司Vercept,以补全其Computer Use功能的视觉短板 [3] - 这是继2025年12月收购全栈工具链初创公司Bun后,Anthropic的第二笔收购案 [3] - Vercept在高精度UI识别、空间推理、动态界面跟踪、低延迟视觉处理方面的积累,可解决Claude模型早期在视觉理解精度、复杂界面识别、动态场景处理方面的瓶颈,提升操作成功率 [3] 被收购方Vercept概况 - Vercept总部位于美国西雅图,由艾伦人工智能研究所(AI2)校友创立,定位为视觉优先的AI Agent [4] - 公司核心团队分别负责机器人与具身智能、AI Agent与强化学习等方向 [4] - Vercept在2025年1月完成1600万美元种子轮融资,估值约6700万美元 [4] - 后续Vercept筹集资金总额约5000万美元 [4] - Vercept的桌面应用Vy将在30天内关闭,用户被鼓励尝试Anthropic的Claude工具作为替代 [5] Computer Use功能与技术整合 - Computer Use是Anthropic为旗下大模型Claude打造的AI直接操控电脑的核心能力,于2024年10月随Claude 3.5 Sonnet发布 [3] - 该功能让Claude可以“看屏幕、动鼠标、敲键盘、操作软件”,完成多步骤、跨应用的复杂任务 [3] - Anthropic认为Vercept在感知与交互方面的专业知识,可直接适用于其正在处理的一些棘手问题 [5] - 开发者正使用Claude处理编写和运行整个仓库的代码、综合数十个来源的研究、管理跨多个工具和团队的工作流程等复杂工作 [4] 行业竞争格局 - Anthropic与OpenAI在打造能够操控电脑为用户完成任务的AI Agent赛道竞争日益激烈 [6] - OpenAI通过“人才引入”方式,吸纳OpenClaw创始人彼得·斯坦伯格全职加入,负责下一代个人AI Agent开发,以对冲Anthropic在企业级Agent上的领先优势 [6] - OpenAI为OpenClaw项目提供资金、技术与模型资源赞助,但项目保持独立开源,不并入公司 [6] 行业前景与公司愿景 - Anthropic创始人认为,AI演进的终极形态是拥有计算机通用控制权的闭环执行系统,而非文本生成器 [7] - 当前行业主要障碍是交互可靠性,即稳定、准确、不出错地完成任务的能力仍有不足,而非智力 [7] - 未来一至三年,AI将通过长上下文管理与计算机视觉控制的结合,解决大部分需要“在职学习”的岗位需求 [7] - Vercept联合创始人认为,Claude完成知识型工作任务的能力将与其当前编写代码的水平相当,可能根本性改变人机交互方式 [6]
Anthropic收购,OpenAI抢人,“硅谷双强”打的什么算盘?
第一财经资讯· 2026-02-26 11:29
公司战略与收购案 - 美国AI头部公司Anthropic宣布收购视觉驱动计算机自动化AI初创公司Vercept,以补全其Computer Use功能的视觉短板[3] - 这是继2025年12月收购全栈工具链初创公司Bun后,Anthropic的第二笔收购案[3] - Anthropic认为Vercept在感知与交互方面的专业知识,可直接适用于其正在处理的一些棘手问题[6] Computer Use功能与收购动因 - Computer Use是Anthropic为旗下大模型Claude打造的AI直接操控电脑的核心能力,于2024年10月随Claude 3.5 Sonnet发布[3] - 该功能让Claude可以像人一样“看屏幕、动鼠标、敲键盘、操作软件”,完成多步骤、跨应用的复杂任务[3] - 由于模型早期在视觉理解精度、复杂界面识别、动态场景处理方面存在瓶颈,导致Computer Use操作成功率低、任务易失败[3] - Vercept在高精度UI识别、空间推理、动态界面跟踪、低延迟视觉处理等方面的积累,正好可以补齐上述短板[3] - 开发者正使用Claude处理编写和运行整个仓库代码、综合数十个来源研究、管理跨多个工具和团队工作流程等复杂工作[4] - Computer Use能让Claude在各种软件里实时操作,完成很多只靠代码搞不定的多步骤任务[4] 被收购方Vercept概况 - Vercept总部位于美国西雅图,由艾伦人工智能研究所(AI2)校友创立,定位视觉优先的AI Agent[6] - 公司主打“像人一样看屏幕、操控电脑”的无API自动化,核心团队成员分别负责机器人与具身智能、AI Agent与强化学习等方向[6] - 基于技术积累与创始团队背景,Vercept在2025年1月完成1600万美元的种子轮融资,估值约6700万美元[6] - 投资人包括前谷歌CEO埃里克・施密特、谷歌DeepMind首席科学家杰夫・迪恩、Cruise创始人凯尔·沃格特等人[6] - 后续Vercept筹集资金总额约5000万美元[6] - Vercept桌面应用Vy将在30天内关闭,作为过渡的一部分,公司鼓励用户尝试Anthropic的Claude工具作为替代方案[6] 行业竞争格局 - 该项收购案反映出在打造能够操控电脑和其他设备、为用户完成任务的AI Agent赛道竞争日益激烈[7] - 除了Anthropic,OpenAI也在积极布局,2月中旬,OpenClaw创始人彼得・斯坦伯格宣布全职加入OpenAI,负责下一代个人AI Agent开发[7] - OpenAI通过“人才引入”的方式,补齐其在个人端AI Agent方面的落地能力,对冲Anthropic在企业级Agent上的领先优势[7] - OpenClaw项目并未被OpenAI收购、不并入公司,而是转入独立开源基金会,继续保持MIT开源协议与社区自治,OpenAI为其提供资金、技术与模型资源赞助,但不拥有也不控制项目决策[7] AI Agent发展前景与挑战 - Anthropic创始人达里奥・阿莫迪表示,AI演进的终极形态不是文本生成器,而是拥有计算机通用控制权的闭环执行系统[8] - 该系统能像人类一样通过观察屏幕、查阅历史、理解上下文并跨平台协作,完成视频编辑、软件工程等复杂生产任务[8] - 目前行业的主要障碍不是智力,而是交互可靠性——即模型能力已足够强,但稳定、准确、不出错地完成一项任务仍有不足[8] - 未来一至三年,AI将通过长上下文管理与计算机视觉控制的结合,解决大部分需要“在职学习”的岗位需求[8] - Vercept联合创始人卢卡・韦斯表示,未来Claude完成知识型工作任务的能力将与它今天编写代码的水平相当,这可能意味着人们与计算机的交互方式会发生根本性改变[7]
Agent 开发的上半场: 环境、Tools 和 Context 如何决定 Agent | 42章经
42章经· 2025-04-27 22:10
Agent定义与核心特征 - Agent是基于环境反馈使用工具的程序 采用Anthropic的定义[2] - 核心三要素包括状态(Context)、行动(Tool Use)、激励信号(RL反馈机制)[32][33] - 与RL强关联 需理解强化学习才能设计优质Agent产品[31] Agent技术演进 - 2023年4月AutoGPT为代表的早期Agent更像玩具 实际应用价值有限[4] - 当前Agent已能在工作生活场景中真正解决问题 实现价值跃迁[5] - 进步源于:1)底层模型能力提升(如RL结合、长思维) 2)工程产品突破(Context构建)[6][7] Context工程创新 - Context是大模型执行任务所需信息总和 不同产品Context构成不同[8] - 相比传统RAG Agent能自动化提炼Context 减少人工干预[10][11] - 优质Context需包含用户历史行为路径 如APP打开瞬间即提供海量意图线索[48][49] Tool Use技术方案 - Function Call/MCP/A2A属于代码驱动派 Computer Use/Browser Use属于视觉模拟派[13] - MCP核心价值在于统一Tool Use标准 降低工具调用门槛[12] - Browser Use存在纯视觉方案(如已倒闭的Adept)和API包装方案 后者更成熟稳定[15] 产品设计方法论 - Chat是最佳交互入口 保障用户自由度优于追求准确度[41] - 需解决双重信任问题:开发者信任模型能力 用户信任执行过程[52][54] - 垂直领域Agent将长期主导 通用Agent面临收敛困难[25][46] 行业竞争格局 - 当前Agent可分为:1)Coding Agent(交付代码) 2)调研Agent(交付报告) 3)表格Agent(定量分析)[61][64] - Sheet0实现100%准确率 核心在于模块化工具复用与AI Coding验证[57][67] - AI Coding与Agent存在协同效应 但直接编码执行任务成本过高[29][30] 发展关键变量 - 模型能力突破与Context工程进步是两大核心驱动因素[69][70] - 需构建完整评估体系(激励信号) 确保系统可收敛[35][71] - 产品需平衡通用性与准确性 不同场景选择不同技术路径[59][60]
OpenAI教你做Agent:2025年,评估标准和如何产品化是Agent的重点
Founder Park· 2025-04-25 21:29
AI Agent技术演进 - 2024年至2025年AI agent的行动能力和交互方式发生质变,头部模型厂商将agentic能力融入模型,成为模型竞赛重点之一 [2] - agent获取信息方式从单次搜索决策模式转变为完全自主的Deep Research模式,能同时打开多个网页节省时间 [3] - OpenAI判断agent可调用的工具数量将在几个月内从10个量级扩展到100个量级 [4] - multi agent系统具备更高可控性和优化潜力,通过任务分拆提升整体工作效率 [5] - vertical agent将直接受益于multi-agent系统发展 [6] 开发者工具与评估 - 开发者需要构建agent评估微调飞轮,通过强化微调能力让模型找到正确tool use路径 [7] - 评估器需能将模型输出与权威资料对比或执行代码验证数学正确性,而非简单字符串比对 [8] - 强化微调方法可推动模型在特定行业深入应用,实现专业化能力提升 [20] - 目前AI领域核心问题是评分机制,如何构建高质量任务和评分器成为重要课题 [21] Computer Use创新 - Computer Use处于早期阶段,VM(虚拟机)需要开发者填补空白,可能出现专门做iPhone VM的公司 [10] - computer use应用场景包括无API的传统软件系统自动化,如医疗行业手工操作和Google Maps街景分析 [22] - BrowserBase和Scrapybara等公司提供computer use模型托管服务,开发者可便捷访问底层控制 [25][26] - Arc浏览器开发的Dia项目将agent深度集成到浏览器中,成为浏览器本身的一部分 [29] 开发者实践与API设计 - multi agent系统通过任务分拆使调试更独立,降低修改风险 [31][33] - OpenAI采用"阶梯式API"设计理念,平衡易用性与可定制性,如向量搜索默认配置可逐步调整 [34] - Assistants API的tool use功能(如文件搜索)找到市场契合点,但使用门槛过高需优化 [36] - Responses API优化多轮交互体验,与MCP生态互补,需深入思考如何更好整合 [37] 行业应用与前景 - AI infra公司垂直化发展仍有市场需求,如Runloop AI为AI coding初创企业提供测试虚拟机 [38] - computer use在网络安全领域应用,如探测网站系统漏洞 [42] - 模型在科学研究领域应用被低估,可能加速科研进程 [53] - 旅游行业存在创新机会,期待AI agent打破传统格局 [56]
OpenAI:computer use 处于 GPT-2 阶段,模型公司的使命是让 agent 产品化
海外独角兽· 2025-04-23 20:41
AI Agent 技术发展 - 2025年AI agent在信息获取方式和工作流上发生重大变化,从单次搜索决策模式转变为完全自主的Deep Research模式,能同时打开多个网页并重新评估立场 [2] - Agent可调用工具数量将在几个月内从10个量级扩展到100个量级,模型将自主判断工具调用路径 [2][8] - Multi-agent系统通过任务分拆提升效率,每个agent专注特定子任务,使调试更独立且风险更低 [3][17] 技术突破与创新 - Chain of Thought与tool use结合使agent能在推理中自主调整工具调用方向,摆脱固定工作流限制 [8][29] - Computer Use处于早期阶段,虚拟机(VM)技术将成为创业机会,可能出现针对iOS等操作系统的专用VM公司 [5][12][25] - 评估微调飞轮成为关键,开发者需构建领域特定评估器验证模型输出的数学正确性和权威性 [4][9] 行业应用与生态 - Vertical agent将直接受益于multi-agent系统,在客户服务等领域形成专业化分工架构 [3][8] - 医疗和法律行业尝试用computer use自动化传统手工操作,如跨应用切换和Google Maps街景分析 [10][12] - BrowserBase和Scrapybara等公司构建computer use基础设施,提供浏览器自动化和远程桌面托管服务 [12] 开发者工具与API演进 - OpenAI推出阶梯式API设计,基础调用仅需4行代码,同时支持50+可配置参数满足高阶需求 [17][19] - Assistants API的tool use功能获市场认可,但使用门槛过高,新版将融合Chat Completions API的易用性 [20] - Responses API支持多轮交互和多重输出,与MCP生态形成互补,强化工具集成能力 [20][21] 未来趋势与挑战 - Agent将深度融入日常产品,如浏览器集成和自动化重复任务,实现"无处不在"的交互 [6][15] - 模型运行时间需从分钟级扩展到小时级以处理复杂任务,算力提升是关键突破点 [8][29] - 科学研究和机器人技术是被低估的应用领域,O系列模型可能加速科研进程 [30][31] 企业实践建议 - 建议企业优先构建内部multi-agent系统解决实际问题,为未来对接公共互联网做准备 [8][28] - AI初创公司应聚焦工作流编排,通过强化微调和CoT工具调用释放模型潜力 [29][32] - 基础设施领域存在垂直机会,如Runloop AI提供测试虚拟机,AIOps公司管理prompt和API计费 [21][23]