Long - horizon planning

搜索文档
312条轨迹激发241%性能!上交大与SII开源电脑智能体,超越 Claude 3.7
机器之心· 2025-05-25 11:51
自 Anthropic 推出 Claude Computer Use,打响电脑智能体(Computer Use Agent)的第一枪后,OpenAI 也相继推出 Operator,用强化学习(RL) 算法把电脑智能体的能力推向新高,引发全球范围广泛关注。 业界普遍认为,需要海量的轨迹数据或复杂的强化学习才能实现电脑智能体的水平突破——这可能意味着大量的人工轨迹标注,以及大规模虚拟机环境的构 建,以支撑智能体的学习与优化。 然而,来自上海交通大学和 SII 的最新研究却给出了一个非共识答案: 仅需 312 条人类标注轨迹 ,使用 Claude 3.7 Sonnet 合成更丰富的动作决策,就 能激发模型 241% 的性能,甚至 超越 Claude 3.7 Sonnet extended thinking 模式 ,成为 Windows 系统上开源电脑智能体的 新一代 SOTA 。 312 条轨迹在不同软件上的分布 思维链补全:让「动作」有「思考」的支撑 这一发现传递出一个关键信号: 当前大模型已经具备了使用电脑完成任务的基础能力,其性能瓶颈主要在于长程推理(long-horizon planning)能力的激 发, ...