端到端多模态GUI智能体框架GUI-Reflection 核心观点 - 南洋理工大学MMLab团队提出GUI-Reflection框架,通过"反思与纠错"机制系统性提升多模态GUI智能体的任务执行能力,模拟人类"犯错→反思→重试"的认知闭环[1][6][27] - 框架覆盖预训练、离线监督微调、在线训练三阶段,分别实现反思能力认知启发、行为习得与交互强化[6][11][12] - 实验证明引入反思机制后,8B参数模型在AndroidWorld基准任务成功率提升至34.5%,接近闭源大模型水平[19][22] 技术实现 1 GUI预训练阶段 - 首创GUI-Reflection Task Suite任务套件,分解反思行为为三类核心任务:动作验证(Action Verification)、动作回滚(Action Reversal)、基于错误的再尝试(Mistake-Informed Reattempt)[7][14] - 预训练模型在反思任务中表现显著提升,8B参数模型Action Verification准确率达87.56%,超越Gemini-2.5-Pro的88.22%[16][17] 2 离线监督微调阶段 - 设计自动化数据管道,通过目标扰动生成错误行为(修改原始任务目标)和行为插入模拟失误(向成功轨迹插入无效操作)构建带错轨迹[8][9] - 无需人工标注实现"反思注入",使模型在ScreenSpotv2任务中第三次尝试准确率提升3.62个百分点[17][10] 3 在线训练阶段 - 搭建分布式安卓模拟环境,覆盖11个APP和215个任务模板,支持高并发交互[12] - 采用迭代式反思反馈调优算法,模型通过多轮训练逐步提升容错率,InternVL3-8B模型第三次尝试准确率较初始提升3.71个百分点[17][18] 性能表现 - 在相同8B参数规模下,引入反思机制的GUI-Pretrain-Ref模型较基线GUI-Pretrain模型在Action Reversal任务准确率提升53.1个百分点(93.81% vs 40.71%)[17] - 结合在线反思调优后,模型任务成功率从基线14.58%提升至34.72%,增幅达137%[19] - 在端到端模型对比中,GUI-Reflection-8B以34.5%成功率超越Aguvis-72B(26.1%)和OS-Gensis-8B(16.9%)[22] 行业意义 - 突破当前GUI智能体依赖完美离线演示数据的局限,首次实现持续自我优化的能力[1][20] - 验证小规模模型通过系统化反思机制设计可达到商用级性能,为开源生态提供新范式[16][19] - 建立多模态GUI智能体标准化评估体系,包含动作验证、回滚等量化指标[14][17]
端到端GUI智能体首次实现“犯错-反思-修正”闭环,模拟人类认知全过程
量子位·2025-06-11 16:07