Workflow
Computer Use Agent
icon
搜索文档
312条轨迹激发241%性能!上交大与SII开源电脑智能体,超越 Claude 3.7
机器之心· 2025-05-25 11:51
电脑智能体技术突破 - 行业首次实现仅需312条人类标注轨迹即可训练出高性能电脑智能体PC Agent-E,性能提升达241%,超越Claude 3.7 Sonnet的extended thinking模式,成为Windows系统开源电脑智能体的新一代SOTA [1][10] - 关键创新在于轨迹增强(Trajectory Boost)技术,利用Claude 3.7 Sonnet为每一步合成多个动作决策,使模型性能相比仅使用人类轨迹训练提升141% [8][11] - 研究表明大模型已具备基础电脑操作能力,性能瓶颈在于长程推理(long-horizon planning)能力的激发,而该能力可通过少量高质量轨迹显著提升 [3][13] 数据收集与处理方法 - 数据来源仅需两位作者一天时间通过PC Tracker工具收集的真实操作轨迹,每条包含任务描述、屏幕截图及键盘鼠标操作 [4] - 原始轨迹经过思维链补全(Thought Completion),为每个动作步骤添加符合ReAct范式的思考逻辑 [7] - 轨迹增强阶段利用环境快照(environment snapshot)通过Claude 3.7 Sonnet为每一步合成9个额外动作决策,极大丰富数据多样性 [8][11] 模型训练与性能表现 - 基于开源模型Qwen2.5-VL-72B训练,PC Agent-E作为原生智能体模型可实现端到端任务执行,无需复杂工作流设计 [10] - 在改进版WindowsAgentArena-V2评测中表现优异,同时在OSWorld平台展现跨平台泛化能力 [10] - 实验显示模型性能随合成动作数量增加而显著提升,验证了轨迹增强方法的有效性 [11] 行业影响与未来方向 - 该方法证明少量高质量轨迹可替代海量标注数据,为构建更智能的数字代理提供新思路 [13] - 当前电脑智能体能力仍显著落后人类,在预训练和监督微调阶段引入人类认知仍是必要基础 [13] - 技术路径降低了数据需求,为未来开发自主操作数字世界的智能代理奠定基础 [13]