Workflow
智能体框架
icon
搜索文档
SEAgent:开启从实战经验中自我进化的GUI智能体新纪元
机器之心· 2025-08-17 12:28
核心观点 - 上海交通大学和香港中文大学学者提出SEAgent框架 该框架无需人类干预即可通过环境交互实现自主学习和进化 突破当前计算机使用智能体依赖昂贵人工标注数据的瓶颈[2] 自主进化框架 - 采用三位一体闭环设计 包含课程生成器、执行者-智能体和评判者-世界状态模型三大核心组件[4][5] - 课程生成器担任导师角色 根据智能体能力生成渐进式任务并维护记录新功能的软件指南[9] - 执行者-智能体在软件环境中执行实际操作探索[9] - 评判者-世界状态模型提供精准步骤级反馈 形成完整进化闭环[9] 世界状态模型优化 - 针对开源大视觉语言模型在长序列操作评判中的不足进行深度优化 当输入过多历史截图时现有模型判断准确率会下降[10] - 通过革新评判范式和高质量数据蒸馏两阶段优化 使用GPT-4o生成860条高质量评判轨迹数据对Qwen2.5-VL-7B模型微调[14] - 引入截图变化描述协同训练任务 显著增强对GUI微小变化的感知能力[14] - 优化后模型性能大幅接近GPT-4o等商业模型水平[10] 专才-通才融合策略 - 发现直接训练多软件通才模型效果不佳 性能低于单一软件专才模型[13] - 采用三阶段策略:先培养五个不同软件专才智能体 再蒸馏3500条成功轨迹数据到通用模型 最后进行多软件强化学习进化[15] - 最终通才智能体综合成功率达34.5% 超越直接训练通才模型(30.6%)和专才模型总和(32.2%)[18] 系统性能表现 - 在OSWorld基准测试中取得显著性能飞跃 SEAgent专才强化学习模型整体成功率达32.2%[16] - 专才模型在VScode(37.7%)、GIMP(38.5%)、Impress(22.0%)、VLC(33.3%)和Writer(29.0%)均表现优异[16] - 通才融合模型进一步将整体成功率提升至34.5% 在VScode(40.5%)和GIMP(42.3%)实现最高性能[16][18] 算法验证 - 消融实验证实世界状态模型是有效学习前提 基于探索的GRPO强化学习显著优于单纯模仿[20] - 对抗性模仿机制带来关键性能提升 能从错误中学习[20] - 课程生成器提供渐进式任务设计 支撑整个进化框架运行[20]
腾讯AI Lab开源可复现的深度研究智能体,最大限度降低外部依赖
量子位· 2025-08-06 13:56
行业技术发展 - 深度研究智能体(Deep Research Agents)凭借大语言模型(LLM)和视觉-语言模型(VLM)的强大能力,正在重塑知识发现与问题解决的范式 [1] - 现有开源智能体框架多依赖付费工具,限制了可复现性和普适性 [2] 公司产品创新 - 腾讯AI Lab推出全开源、多模块、层次化的智能体框架Cognitive Kernel-Pro,为深度研究智能体的开发与训练提供突破性解决方案 [4] - Cognitive Kernel-Pro在GAIA基准全集上超越开源免费框架SmolAgents,性能逼近依赖付费工具的智能体,在GAIA-text上训练的8B模型超越WebDancer和WebSailor-7B [5] - 公司公开Agent Foundation Model的训练配方,提供可复现的训练路径 [7] - 相关技术报告及代码已开源,框架以Python代码为动作空间,充分发挥现代LLM的推理和代码生成能力 [8][10] 技术架构设计 - 模块化架构:采用两层多模块设计,包含主智能体和多个子智能体,确保模块独立性和扩展性 [11] - 状态管理与规划:通过"进度状态"机制记录已完成步骤、待办任务等,提升复杂任务处理效率 [11] - 标准化任务接口:主智能体与子智能体通过简洁文本接口通信,子智能体以Python函数形式定义 [11] - 测试时优化:引入反思机制和投票机制,通过评估和优化动作轨迹提升任务完成质量 [11] 数据训练方法 - 训练流程覆盖网页导航、文件处理、代码生成和推理等多个领域,包含高质量Web Agent数据构建、Persona Hub数据增强、推理数据优化和轨迹采样等创新方法 [15][16][17] - 使用OpenWebVoyager、Multihop URLQA、AgentWebQA等数据集,涉及1,259至32,231不等的查询和步骤数量 [16] 性能对比优势 - 在GAIA基准测试中,Cognitive Kernel-Pro(使用Claude-3-7模型)平均得分70.91,超越多数开源框架 [19] - 8B模型CK-Pro-8B在GAIA-text基准测试中超越WebDancer和WebSailor类似大小模型,体现框架和训练方法优越性 [22][23] - 反思功能消融实验显示,开源模型Qwen-3-32B能提供接近GPT-4.1的反思效果 [24][25] 开源与工具策略 - 框架强调LLM和VLM的内在能力,最大限度降低外部依赖,实现真正的全开源 [20] - 支持灵活切换免费API(如DuckDuckGo),提升可访问性 [20] - 相较于依赖Jina Reader、FireCrawl等付费工具的现有开源框架,Cognitive Kernel-Pro更具功能全面性和开源优势 [14][20]
o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark
量子位· 2025-06-16 12:50
经典小游戏成为新Benchmark - o3-pro突破推箱子第六关上限并通关所有关卡 表现远超benchmark原有标准[2][8] - 俄罗斯方块测试中o3-pro得分无上限 成绩较前SOTA模型o3直接翻倍[3][14] - 测试采用迭代交互循环模式 结合智能体框架的感知/记忆/推理模块提升稳定性[18][20] Lmgame基准测试体系 - 包含6款游戏:推箱子(1989版)、俄罗斯方块、2048、糖果传奇、马里奥兄弟、逆转裁判[6][18] - 各游戏评估标准差异化:推箱子计算通关关卡数 俄罗斯方块按方块数+10倍消行数计分[7][13][24] - 测试框架开源 支持动态更新游戏关卡(如推箱子从4关扩展至50关)[9][23] 模型性能对比 - 推箱子历史排名:o3-pro > o3 > o4-mini > DeepSeek-R1(0528版)[10] - 俄罗斯方块历史排名:o3-pro > o3 > R1 > o4-mini 与推箱子排名存在差异[14] - o3-pro操作耗时显著 单步决策需数分钟[17] 研究团队背景 - 项目来自UCSD Hao AI Lab 负责人张昊(卡内基梅隆博士)曾参与创立LMSYS[28][29][30] - 实验室获谷歌/英伟达资助 2024年4月接收DGX B200捐赠[34] - 开源项目FastVideo获GitHub 1 5k星标 团队同时开发大模型竞技场等知名框架[32][31] 行业应用延伸 - Gemini模型2024年5月成功通关宝可梦·蓝 谷歌CEO公开宣布成果[26][27] - 测试方法受业界认可 网友认为比大模型竞技场更适合评估模型能力[5]
o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark
量子位· 2025-06-16 12:49
经典小游戏成为大模型Benchmark - 核心观点:经典小游戏如推箱子和俄罗斯方块被用作测试大模型性能的新基准,o3-pro模型在该基准上表现优异,突破了原有上限 [1][2][6] - o3-pro在推箱子游戏中通关所有关卡,远超之前仅能完成第六关的benchmark上限 [3][7][8] - 在俄罗斯方块中o3-pro表现持续强劲,游戏需强行终止,其得分计算方式为放置方块数量与清除行数10倍之和 [13][14] - 与前SOTA模型o3相比,o3-pro成绩直接翻倍 [3] Lmgame Benchmark框架设计 - 测试框架包含六款游戏:推箱子、俄罗斯方块、2048、糖果传奇、马里奥兄弟和逆转裁判 [18] - 采用迭代交互循环模式:游戏状态持续反馈给模型,模型生成动作后获得奖励并更新状态 [18] - 引入智能体框架辅助,包含感知、记忆、推理模块,并通过提示标准化确保评估稳定性 [20] - 各游戏评价标准差异化:马里奥兄弟按移动距离、2048按合并方块值对数、糖果传奇按消除数量、逆转裁判按正确动作计数 [24] 模型性能对比与开源生态 - 推箱子历史排名:o3-pro > o3 > o4-mini > DeepSeek-R1(0528) [10] - 俄罗斯方块历史排名:o3-pro > o3 > R1 > o4-mini(与推箱子排名部分倒置) [14] - 测试基准动态更新,GitHub仓库半月前仅四关,原版推箱子含50+关卡 [9] - 项目完全开源,可自行下载测试模型性能 [23] 研究团队背景 - Lmgame由UCSD Hao AI Lab开发,负责人张昊为卡内基梅隆博士、伯克利博士后,曾参与创立LMSYS(大模型竞技场开发方) [28][29][30] - 实验室获谷歌/英伟达资助,2024年4月获赠英伟达DGX B200服务器 [34] - 其他开源项目FastVideo(视频生成加速框架)获GitHub 1.5k星 [32]