端到端GUI智能体首次实现“犯错-反思-修正”闭环,模拟人类认知全过程
量子位·2025-06-11 16:07
端到端多模态GUI智能体有了"自我反思"能力!南洋理工大学MMLab团队提出框架GUI-Reflection。 随着多模态大模型的发展, 端到端GUI智能体 在手机、电脑等设备上的自动化任务中展示出巨大潜力。它们能够看懂设备屏幕,模拟人类去 点击按钮、输入文本,从而完成复杂的任务。 然而,当前端到端GUI多智能体的训练范式仍存在明显的瓶颈:当前模型往往使用几乎完美的离线演示轨迹进行训练,使得模型缺乏反思和改 正自身错误的能力,并进一步限制了通过在线强化学习激发和提升能力的可能。 GUI-Reflection 的核心思想是在智能体的各个训练阶段引入 "反思与纠错"机制 ,这一机制贯穿 预训练、监督微调和在线训练 全过程,模 拟了人类 "犯错→反思→重试" 的认知过程。 1. GUI预训练阶段: GUI-Reflection 团队 投稿 量子位 | 公众号 QbitAI 提出GUI-Reflection Task Suite任务套件, 将反思纠错能力进一步分解,让模型在预训练阶段框架让模型初步接触反思类任务,为后续打 下基础。 2. 离线监督微调阶段: 构建自动化数据管道,从已有离线无错轨迹中构建带有反思和纠错的 ...