Operator

搜索文档
硬核「吵」了30分钟:这场大模型圆桌,把AI行业的分歧说透了
机器之心· 2025-07-28 12:24
大模型技术演进与发展之路 核心观点 - 大模型技术从预训练为主转向强化学习主导的范式转变 [10][17][19] - 行业面临Transformer架构局限性、数据枯竭、开源闭源博弈等核心挑战 [31][41][59] - Agent应用爆发与基础模型研发需双轨并行 [53][54][55] 训练范式转变 - OpenAI从GPT-4o的预训练主导转向o1的强化学习后训练,提出测试时间扩展新维度 [13][14][15] - 强化学习可解决行为克隆难以建立目标导向推理能力的问题,但需突破自然语言反馈限制 [21][22][23] - 预训练仍是强化学习冷启动的基础,但需解决奖励机制和算力效率挑战 [25][26][27] 模型架构演进 - Transformer面临O(n²)扩展性、显存占用和长期记忆三大瓶颈 [31] - 优化路径包括RoPE位置编码、分组查询注意力等改进,以及Mamba等非Transformer架构探索 [33][34] - 智能体时代可能推动RNN架构回归,需建模无限上下文能力 [37][38] 数据供给挑战 - 高质量语料预计2028年耗尽,合成数据被Anthropic/OpenAI等广泛应用但存在迭代崩溃风险 [41][42][43] - 英伟达提出物理仿真生成边缘案例,需建立真实世界验证闭环 [44][45] - 行业数据未充分挖掘,应建立非敏感数据共享机制提升预训练质量 [46][48][51] 商业化落地路径 - 2025年Agent产品成爆点(如OpenAI Operator、智谱AutoGLM),但基础模型研发仍持续 [53][54] - 大模型当前相当于自动驾驶L3阶段,距AGI仍有差距 [55] - 金融等领域落地需突破大规模数据处理等技术瓶颈 [56][57] 开源生态影响 - DeepSeek等开源模型性能逼近闭源,冲击传统GPU/闭源产业链 [60][61] - 开源推动资源合理配置并形成行业压力,但需解决分叉滥用问题 [63][64][67] - 英伟达支持开源算力引擎,未来可能走向混合模式 [65][66]
OpenAI会杀死Manus们吗?
创业邦· 2025-07-22 11:02
核心观点 - OpenAI发布ChatGPT Agent,通过专用模型实现任务规划、跨工具调用和文档生成等复杂流程,显著提升AI Agent能力 [5][9] - 初创公司如Manus和Genspark通过工程优化和上下文设计在响应速度、任务完成度和用户体验上暂时领先,但面临底层模型能力差距 [13][21][27] - AI Agent市场快速增长,预计从2024年51亿美元增至2030年471亿美元(CAGR 44.8%),巨头与初创公司技术路线分化 [45][46] 技术对比 - **OpenAI技术路线**:端到端训练的统一模型(o3系列),在《人类的最后考试》测试中得分41.6%(pass@1),SpreadsheetBench性能达投行分析师1-3年经验水平 [9][29][32] - **初创公司技术路线**:依赖上下文工程(如Manus的KV缓存设计),首个token生成成本降低10倍,通过提示工程优化使数学题正确率从27%提升至49% [36][37][40][42] 行业竞争动态 - Manus在OpenAI发布后3小时内发布10条对比测试,展示更优的行程海报、财务分析PPT等任务完成度 [13][15][20] - Genspark宣称其24人团队在响应速度、成本和质量上"领先OpenAI好几倍",并发布9个对比案例 [21] - OpenAI承认当前ChatGPT Agent速度较慢(部分任务需20分钟),但强调后台持续推理能力(最长2小时) [24] 市场影响 - 微软CEO称20%-30%代码由AI生成,Klarna的AI Agent替代700名客服,显示AI Agent已实质性改变劳动力结构 [45] - OpenAI计划整合支付系统向商家收取佣金,商业化步伐加速 [49] 产品差异 - **OpenAI**:强调底层模型能力,输出标准格式文件(如Excel/PPT),用户需二次加工 [24][32] - **初创公司**:提供现成模板和设计(如Manus的行程海报、Genspark的图表总结),降低用户使用门槛 [13][21][27]
OpenAI上新Manus撤退 AI智能体两面
北京商报· 2025-07-20 22:31
OpenAI ChatGPT Agent发布 - OpenAI发布ChatGPT Agent智能体,具备自主思考和行动能力,能主动选择工具完成复杂任务如查看日历分析会议、分析竞争对手创建幻灯片、将截图转为可编辑PPT等[2][3] - ChatGPT Agent整合Operator的网页操作能力、Deep Research的信息整合能力和ChatGPT对话能力,形成统一智能体系统[3] - 智能体系统支持调用可视化浏览器、文本浏览器、终端工具和API接口,分别用于网页交互、文本处理、代码运行和应用数据访问[4] - 金融交易等高敏感操作受限制,执行重要操作需用户授权,访问金融网站时限制标签页切换以确保安全[4][5] Manus中国市场调整 - Manus清空国内社交平台内容,官网显示地区不可用,被曝将总部迁至新加坡并裁减中国区约80名非核心员工[6] - 公司回应称调整基于经营效率考量,核心研发团队40多人迁往新加坡[6] - 联合创始人季逸超技术复盘显示团队经历四次框架调整,选择基于开源/商业大模型构建智能体而非自研[6] - 外界猜测迁址或为规避美国投资审查风险,且因主要依赖Claude模型在国内面临成本与合规挑战[7] 智能体行业动态 - 2024年全球AI智能体市场规模预计54亿美元,2025年可能成为AI Agent元年[8] - 基础大模型能力决定Agent上限,C端Agent受大厂和创业公司重点关注,OpenAI、Google、字节、阿里等积极布局[8] - Gartner预测智能体市场将经历退潮,到2027年底超40%项目可能被取消[8] - 当前Agent在复杂工具调用中可达90%准确率,但基础模型尚难自主调用上万个工具[9]
OpenAI的Agent来了,被批“鸡肋”升级?
21世纪经济报道· 2025-07-18 19:26
产品发布 - OpenAI于7月18日发布ChatGPT Agent,整合Operator的视觉交互能力和DeepResearch的信息合成能力,旨在打造全能助理[1][2] - 新产品覆盖办公自动化、生活助手、深度研究等多场景,可自动生成会议简报、竞品分析PPT、规划菜单并采购等[3] - 功能目前仅向Pro、Plus和Team用户开放,且Plus与Team用户每月限用40次[5] 技术性能 - 在HLE测试中pass@1得分达41.6%,刷新纪录;SpreadsheetBench测试准确率45.54%,远超微软Copilot in Excel的20%[3] - 内部测试显示其50%知识工作任务表现比肩或超越人类,但用户反馈实际任务完成率同样约50%[4] - 采用虚拟机同时调度视觉浏览器、文本浏览器和代码终端,解决Operator与DeepResearch的原有短板[2] 用户体验争议 - 效率问题突出:15秒手动任务Agent耗时35分钟,且结果需额外2-3倍时间核对[4] - PPT生成功能美观度不足,被评逊色于竞品;服务器崩溃问题仍存[4][5] - 连接Google Drive等私密数据源引发安全担忧,99.99%成功率仍意味美国每周潜在7200次错误[4] 行业趋势 - AI竞赛进入下半场,从技术突破转向精细化运营,聚焦实际应用与商业化[5] - 公司采取实时监控、禁用记忆功能等措施应对生物化学武器领域的高风险能力[6] - 行业面临核心矛盾:强大能力与高昂成本间的可持续商业模式探索[5] 产品定位 - 此次更新属内部整合型常规升级,非颠覆性创新,反映巨头产品迭代策略转变[1][5] - 发布本质为大规模公开测试,非成熟商业产品,凸显能力与实用性的现存鸿沟[5][6]
OpenAI发布ChatGPT Agent:部分能力超越人类,但做电子表格仍不如人类
第一财经· 2025-07-18 13:13
ChatGPT Agent功能更新 - ChatGPT Agent融合Operator智能体网页交互能力与Deep Research功能,具备内置计算机能帮助用户完成复杂多步骤任务[1] - 新功能包括主动选择工具完成任务,例如查看日历并介绍会议、分析竞争对手创建幻灯片、执行重复任务如更新电子表格和重新安排会议[1] - 工作流程涵盖浏览网站、过滤结果、提醒登录账号、运行账号、分析数据、创建电子表格和幻灯片[1] - 智能体系统整合Operator的网站调动能力、Deep Research信息整合能力与ChatGPT对话能力,形成统一平台[2] - 系统可调用可视化浏览器、文本浏览器、终端工具和API接口,分别用于网页交互、处理文本、运行代码和访问应用数据[2] 性能基准测试表现 - 在Humanity's Last Exam测试中准确率41.6%,超过Deep Research的26.6%和o3模型的24.9%[3] - FrontierMath数学测试准确率27.4%,高于o4 mini的19.3%和o3的10.3%[3] - 内部评测显示约半数案例表现与人类持平或更优[3] - DSBench测试中数据分析与建模准确率分别为89.9%和85.5%,超过人类水平[3] - 在投资银行分析师建模任务基准上准确率高于o3和Deep Research[3] - SpreadsheetBench测试最高得分45.5%,仍低于人类的71.3%[6] 技术发展与行业竞争 - 公司表示此次更新是迭代起点,将持续改进智能体系统[9] - Agent能力依赖基础模型性能,GPT-5预计今年夏季推出以应对DeepSeek等竞争对手[9] - 开发者预测年内Agent可在数十步复杂工具调用中实现90%准确率,接近商用标准[9] - 当前基础模型尚无法自主调用上万个工具并执行任务[9]
OpenAI发布ChatGPT Agent:AI"代理人"已至,人类准备好交出操作权了吗?
钛媒体APP· 2025-07-18 13:07
产品发布 - OpenAI发布ChatGPT Agent,具备自主执行复杂任务能力,可完成搜索、筛选、判断、执行等一整套流程并输出可交付结果 [1] - ChatGPT Agent定位为多工具整合智能体系统,拥有终端、图形浏览器、文本浏览器,功能相当于受控的远程虚拟操作系统 [1] - 该产品是Operator和Deep Research两个子产品的融合,Operator偏执行,Deep Research偏思考 [1][17] 技术能力 - ChatGPT Agent具备三大基础能力组件:文本浏览器负责信息爬梳与筛选,可视化浏览器支持界面识别与交互,终端支持代码执行和文件生成 [2][4] - 这些能力协同形成完整的"感知-决策-执行"链路,例如在旅行安排任务中可综合使用多种工具,10分钟完成人类需更长时间处理的任务 [6] - 在复杂场景中可自动调用API设计贴纸、操作购物流程、连接Google Drive处理文档并生成PPT或电子表格行程表 [8] 性能表现 - 在"人类的最后一场大考"测试中获得41.6%成绩,是不带工具模型的两倍,展现强大的推理与工具调度能力 [11] - WebArena网页交互测试得分接近人类水平,SpreadsheetBench电子表格操作测试得分45.5%,较GPT-4o提升一倍 [14] - DSBench数据分析测试超过所有此前的SOTA模型,表明其在现实数据分析任务中的强大能力 [16] 技术演进 - 通过强化学习方法教会模型如何调度工具,采用类似课程学习策略从简入繁掌握工具使用逻辑 [18] - 标志AI从"语言智能"进入"操作智能"新阶段,完成从"助手"向"代理人"角色的转变 [17][18] - 产品结构类似未来操作系统雏形,具备动态调度资源、主动规划流程、与人类深度交互的能力 [18] 市场策略 - 将能力下放到Plus、Team乃至企业级服务中,使Agent不再是高级用户特权 [19] - 借助Agent热潮吸引更多用户,扩大在大模型赛道的话语权 [19] - 未来可能发展开放插件生态,承接SaaS级别复杂度任务,嵌入企业专属工作流 [19]
OpenAI 发布 ChatGPT Agent:已向付费用户开放,与 Manus 相似
Founder Park· 2025-07-18 11:19
文章核心观点 - AI 2025年的核心主题是Agent模式,标志着从"动嘴"到"动手"的转变,AI将直接完成复杂任务[1][35] - OpenAI推出的Agent模式整合了Operator和Deep Research工具,实现虚拟机内自主操作浏览器、终端等工具完成实际工作[2][15][18] - 该模式完成复杂任务(如婚礼策划、商品设计下单)仅需10-25分钟,效率显著高于人工[12][13][14] - 使用工具后模型在Humanities Last Exam测试得分提升至42%,接近Grok 4 Heavy的45%[22][23] - Agent时代将重塑人机关系,带来隐私安全、工作替代等社会挑战[33][36][37] Agent模式功能 - 可调用文本浏览器、可视化浏览器和终端三种工具,自主切换完成信息检索、图像处理、代码运行等[6][7] - 演示案例包括:婚礼策划(10分钟生成服装/酒店/礼物全套方案)、宠物周边设计下单(调用Image Gen API)、旅行攻略制作(25分钟生成电子表格+地图)[10][12][13][14] - 支持任务中途插入新需求,允许用户实时交互和手动接管[5] 技术实现路径 - 由Operator(图形界面操作工具)和Deep Research(深度调研工具)融合而成,解决单一工具局限性[15][17] - 通过强化学习训练工具使用策略,初期笨拙尝试所有工具,后期学会最优工具组合(如创意作品先搜索→终端编码→浏览器验证)[20][21] - 在WebArena和SpreadsheetBench测试中接近人类水平,网页操作能力尤其突出[30] 商业化进展 - 开放范围扩大至Plus/Team用户,每月提供40次使用额度,相比此前Pro用户优先策略更具普惠性[3] - 执行效率显著提升:复杂报告生成时间从小时级压缩至10分钟级,预订类任务7分钟可完成[12][17] 行业影响 - 可能催生Agent应用生态,但也对Manus等第三方开发者形成竞争压力[32] - 将重新定义白领工作效率标准,可能加速某些岗位的自动化替代[37] - 需要建立新的安全规范应对虚拟机操作带来的隐私风险(如信用卡信息泄露)[33][34]
刚刚,OpenAI发布了自己的Agent模式,能干什么?
虎嗅APP· 2025-07-18 08:20
OpenAI发布Agent模式 - OpenAI在2025年下半年推出Agent模式,标志着AI从"动嘴"进入"动手"时代,能够直接完成用户指令[3][4] - Agent模式可执行复杂任务如购物、设计、信息整理等,平均耗时10-25分钟,完成度高[4][9][10] - 该模式整合了Operator和Deep Research两款工具,实现浏览器操作与深度研究能力融合[11][12][13] Agent模式技术特点 - 调用三种工具:文本浏览器(信息检索)、可视化浏览器(图形交互)、终端(代码执行/API调用)[8][9] - 采用强化学习训练模型工具选择能力,任务完成效率比纯人工高[14] - 在Humanities Last Exam基准测试中达到42%准确率,较基础模型提升1倍[15][16] 商业化应用进展 - 开放给Plus/Team用户,每月提供40次使用额度,覆盖更广泛用户群体[5] - 演示案例包括婚礼策划(10分钟生成服装/酒店/礼物方案)、贴纸设计下单(7分钟)、旅行攻略制作(25分钟)[9][10] - 网页操作能力接近人类水平(WebArena基准),电子表格处理能力仍有差距[19][20] 行业影响与挑战 - 直接对标Manus模式,可能重塑第三方Agent开发生态格局[7][22] - 引发隐私安全担忧,涉及虚拟环境中的个人信息与支付操作风险[23][24] - 将重新定义人机关系,引发对白领工作岗位替代效应的讨论[25][26]
2025上半年,AI Agent领域有什么变化和机会?
虎嗅· 2025-07-11 08:11
核心观点 - 2025年上半年AI Agent迅猛发展,行业进入"万物皆可Agent"的热潮,模型侧与应用侧均迎来关键变化 [1][2][7] - AI Agent是继提示词、工作流之后AI应用的第三阶段,核心价值在于感知环境、自主决策及工具使用能力 [2][19] - 强化学习驱动的持续迭代被视为Agent发展的关键路径,编程领域率先验证PMF [20][23][25] - 垂直领域Agent因具备行业先验知识更受关注,ToC长链条任务规划和工具类内容生成存在机会 [43][44][45] 技术突破与行业动态 - 模型侧:DeepSeek打破OpenAI垄断,推动推理模型赛道"军备竞赛",OpenAI、Anthropic、Google相继发布o3 Pro、Claude 4系列、Gemini 2.5 Pro等重磅模型 [5][6] - 应用侧:OpenAI发布Operator与Deep Research两款Agent产品,2025年被业界视为"AI Agent元年" [7][14] - 中国团队表现活跃:Manus、Genspark等产品引发关注,Minimax、月之暗面等大模型厂商加入战局 [8] - AI编程赛道验证PMF:Cursor、Windsurf被OpenAI收购,Lovable、Replit、Bolt快速发展 [9] AI Agent的演进与特征 - 三阶段演进:从Prompt(对话交互)到Workflow(预设流程)再到Agent(自主决策) [17][18][19] - 核心能力:感知环境(理解用户需求与上下文)、自主决策(突破Workflow固定流程限制)、工具使用(浏览器/计算机操作) [19][20] - 技术驱动:Tool Use能力突破(MCP通用接口普及)与强化学习提升推理能力是关键 [20][23][24] 落地挑战与创新机会 - 技术瓶颈:上下文长度管理、记忆机制、物理环境交互能力不足 [39] - 商业模式:订阅制、按token付费、按结果付费等模式尚待验证 [40] - 投资方向:垂直领域Agent(行业knowhow优势)、ToC长链条任务(如Deep Research类产品) [43][44] - 竞争格局:模型厂商与创业公司边界模糊,端到端Agent与模块化Agent路径分化 [27][28] 行业共识与争议 - 强化学习vsWorkflow:前者性能上限高但可控性差,后者更适合短期商业化 [30][31] - 《苦涩的教训》启示:Agent应减少人类先验干预,依赖算力与数据自主迭代 [30][31] - 环境构建争议:需平衡先验能力与反馈闭环,多模态交互或成关键 [33][34][35]
AI早报 | Meta研发可“主动陪聊”AI 机器人;美国企业CEO预测AI将取代很多白领岗位
搜狐财经· 2025-07-05 09:15
Meta AI聊天机器人研发 - Meta正在研发"Project Omni"项目 旨在开发能主动基于历史聊天记录发起对话的AI聊天机器人 以提升用户黏性和互动频率 [2] - 该项目AI模型训练数据来自Alignerr公司 目前已支持多样化人设和第三方接入功能 可作为提醒消息类机器人使用 [2] AI对白领岗位影响预测 - 福特汽车CEO预测AI将取代美国约50%白领岗位 摩根大通预计运营部门人员数量未来几年因AI工具减少10% [3] - OpenAI高管认为岗位流失速度可能被夸大 但承认劳动力市场必然变化 IBM案例显示AI替代HR岗位同时增加程序员和销售岗位 [3] 谷歌面临欧盟反垄断调查 - 欧盟独立出版商指控谷歌AI概述功能损害竞争 已向欧盟和英国监管机构提交投诉并要求临时措施 [4] ChatGPT智能体功能升级 - ChatGPT测试代码显示将引入类似Operator的AI智能体 支持通过远程浏览器或API执行点击 拖拽等操作 可完成订餐 购票等任务 [5] 智慧医疗与物流技术进展 - 上海浦东医院与华为合作建设智慧医院示范点 通过AI驱动实现无线化 智能化医疗网络 [5] - 京东物流智狼拣货系统实现秒级拣货效率 已在北京 广州等核心城市仓库规模化部署 [5][6] 医疗机器人技术突破 - 中国航天科技集团研发的全国首台FLASH放疗机器人进入临床试验阶段 将在华西医院等三家医疗机构同步测试 [7]