核心观点 - 上海交通大学和香港中文大学学者提出SEAgent框架 该框架无需人类干预即可通过环境交互实现自主学习和进化 突破当前计算机使用智能体依赖昂贵人工标注数据的瓶颈[2] 自主进化框架 - 采用三位一体闭环设计 包含课程生成器、执行者-智能体和评判者-世界状态模型三大核心组件[4][5] - 课程生成器担任导师角色 根据智能体能力生成渐进式任务并维护记录新功能的软件指南[9] - 执行者-智能体在软件环境中执行实际操作探索[9] - 评判者-世界状态模型提供精准步骤级反馈 形成完整进化闭环[9] 世界状态模型优化 - 针对开源大视觉语言模型在长序列操作评判中的不足进行深度优化 当输入过多历史截图时现有模型判断准确率会下降[10] - 通过革新评判范式和高质量数据蒸馏两阶段优化 使用GPT-4o生成860条高质量评判轨迹数据对Qwen2.5-VL-7B模型微调[14] - 引入截图变化描述协同训练任务 显著增强对GUI微小变化的感知能力[14] - 优化后模型性能大幅接近GPT-4o等商业模型水平[10] 专才-通才融合策略 - 发现直接训练多软件通才模型效果不佳 性能低于单一软件专才模型[13] - 采用三阶段策略:先培养五个不同软件专才智能体 再蒸馏3500条成功轨迹数据到通用模型 最后进行多软件强化学习进化[15] - 最终通才智能体综合成功率达34.5% 超越直接训练通才模型(30.6%)和专才模型总和(32.2%)[18] 系统性能表现 - 在OSWorld基准测试中取得显著性能飞跃 SEAgent专才强化学习模型整体成功率达32.2%[16] - 专才模型在VScode(37.7%)、GIMP(38.5%)、Impress(22.0%)、VLC(33.3%)和Writer(29.0%)均表现优异[16] - 通才融合模型进一步将整体成功率提升至34.5% 在VScode(40.5%)和GIMP(42.3%)实现最高性能[16][18] 算法验证 - 消融实验证实世界状态模型是有效学习前提 基于探索的GRPO强化学习显著优于单纯模仿[20] - 对抗性模仿机制带来关键性能提升 能从错误中学习[20] - 课程生成器提供渐进式任务设计 支撑整个进化框架运行[20]
SEAgent:开启从实战经验中自我进化的GUI智能体新纪元
机器之心·2025-08-17 12:28