Agent S2
搜索文档
你敢信?GPT-5的电脑操作水平只比人类低2%了
机器之心· 2025-10-04 11:38
文章核心观点 - Agent S3在计算机使用智能体领域取得重大突破,其性能在OSWorld基准测试上达到69.9%,超出先前最佳水平10%,并接近人类水平的72% [1] - 通过引入并行扩展框架Behavior Best-of-N,实现了从单次运行到多次执行中挑选最佳结果的转变,解锁了可扩展的性能提升 [2] - 该技术进展预示着计算机使用智能体即将超越人类能力 [1] 技术方法改进 - Agent S3在Agent S2基础上构建,通过简化框架并引入原生代码智能体,将OSWorld性能提升至62.6% [2][12] - 针对CUA的高方差瓶颈,创新性地提出了Behavior Best-of-N框架,包含行为叙事生成和行为最佳选择评判两个关键组件 [7][8][9] - 移除了管理者-工作者分层结构,使解决方案更加多样,既能处理代码任务也能覆盖图形界面任务,可靠性得到提升 [12] - 上述改进共同带来13%的性能提升,使Agent S3单次运行表现达到62.6% [13] 性能表现与效率 - Agent S3 w/ bBoN在GPT-5上实现69.9%的成功率,相比单次运行提升7.3个百分点;在GPT-5 Mini上实现60.2%的成功率,提升10.4个百分点 [15] - 相比Agent S2,Behavior Best-of-N带来13.8%的成功率提升,使每个任务的LLM调用次数减少52.3%,平均任务完成时间缩短62.4% [17][18] - 当并行运行10次智能体时性能达到最高,GPT-5表现为69.9%,GPT-5 Mini表现为60.2% [19] 模型集成与多样性 - GPT-5 + Gemini 2.5 Pro组合实现66.7%的最高成功率和78.0%的任务覆盖率,表明能力互补且多样化的模型集成能获得最佳性能 [21][22] - 最具多样性的混合相比任何单模型组合取得更高任务覆盖率,证明多样性是提升成功率上限的关键 [21] - 行为叙事表示在bBoN中相比最佳基线提升3.4%,表明其有效性优于仅截图或简单描述基线 [23][24] 评估与一致性 - bBoN Judge表现优于WebJudge,且随着运行次数增加扩展性更好 [25] - 评判器在78.4%的任务上做出正确选择,复核后发现其实际在92.8%的任务上正确,表明与人类偏好具有较高一致性 [27][28][29] - OSWorld的真实性能更接近76.3%,评判器成为评估CUA任务的 promising 工具 [27][29]
腾讯研究院AI速递 20250430
腾讯研究院· 2025-04-29 22:54
ChatGPT购物功能升级 - OpenAI为ChatGPT推出购物搜索功能,支持产品推荐、详情展示和直接购买链接 [1] - ChatGPT一周搜索量超10亿次,奥特曼接受联属费用模式 [1] - 新功能将与记忆系统整合,为Plus用户提供个性化推荐 [1] Grok 3.5技术升级 - Grok 3.5早期测试版下周发布,限SuperGrok订阅用户使用,号称能基于第一性原理回答复杂技术问题 [2] - Grok 3上线后移动端下载量增10倍,美国日活增260%,全球日访问量达450万次 [2] - 用户期待Grok增加主动提醒等实用功能 [2] Qwen3模型性能突破 - Qwen3发布六款模型,包括MoE架构(30B和235B)和Dense架构(0.6B至32B),235B版本性能或超DeepSeek R1 [3] - 支持119种语言方言,引入思考/非思考模式无缝切换功能,强化Agent和代码能力 [3] - 训练过程分为预训练(36万亿token)和后训练四阶段优化,实现长文本和复杂推理能力提升 [3] Agent S2开源框架 - Agent S2为开源AI智能体框架,可直接通过图形界面操作电脑和手机,性能超越OpenAI和UI-TARS等竞品 [4] - 采用模块化设计,包含四大创新架构:主动分层规划、纯视觉定位交互、专家模块接口、经验驱动记忆机制 [5] - 框架完全开源、跨平台,能执行图片编辑、文档处理等复杂任务 [5] AI操控舆论实验 - 苏黎世大学在Reddit用AI发表1700多条评论,说服力达人类6倍且4个月内未被识破 [6] - 个性化策略表现最佳,在所有用户中排名前1%,专家中排名前2% [6] - 实验未经授权且涉及假扮弱势群体身份,引发道德争议 [6] Duolingo AI优先战略 - Duolingo宣布全面转型"AI优先"战略,类比2012年押注移动端的重要决策 [7] - 转型措施包括停用AI可替代的外包任务、将AI能力纳入招聘和考核、设立专项AI项目 [7] - 强调AI转型旨在减少重复性工作,让员工专注创造性任务 [7] DeepSeek一体机发布 - 行云集成电路推出褐蚁HY90一体机,售价14.9万元,能以22 tokens/s速度运行未量化的671B参数DeepSeek-R1模型 [8] - 通过CPU高内存带宽和异构计算架构优化,将百万级设备成本降至10万元级别 [8] - 公司由清华90后博士创立,团队拥有深厚技术积累 [8] 纳米AI MCP工具箱 - 纳米AI推出MCP万能工具箱,支持MCP协议,无需代码即可调用大量工具 [9] - 已打造多个专用智能体,覆盖股票分析、论文研究、小红书创作等场景 [9] - 系统通过隔离沙箱保障安全性,所有工具免费使用 [9] Hugging Face机械臂 - Hugging Face发布可3D打印机械臂SO-101,起售价100美元,具备物体抓取和基础任务执行能力 [10] - SO-101是SO-100升级版,组装更快、电机更好,能通过强化学习训练完成乐高积木等任务 [10] - Hugging Face正大力拓展机器人业务,已收购法国初创公司Pollen Robotics [10] Scale AI创始人观点 - Scale AI创始人强调好的数据对AI至关重要,通过Outlier平台让全球用户帮助生成和改进AI训练数据 [11] - AI将成为帮助人类实现想法的工具,未来工作形态会改变但不会消失 [11] - 美国在芯片和算法上领先,中国在数据方面可能超前 [11]