端到端GUI智能体首次实现“犯错-反思-修正”闭环，模拟人类认知全过程

端到端多模态GUI智能体框架GUI-Reflection 核心观点 - 南洋理工大学MMLab团队提出GUI-Reflection框架，通过"反思与纠错"机制系统性提升多模态GUI智能体的任务执行能力，模拟人类"犯错→反思→重试"的认知闭环[1][6][27] - 框架覆盖预训练、离线监督微调、在线训练三阶段，分别实现反思能力认知启发、行为习得与交互强化[6][11][12] - 实验证明引入反思机制后，8B参数模型在AndroidWorld基准任务成功率提升至34.5%，接近闭源大模型水平[19][22] 技术实现 1 GUI预训练阶段 - 首创GUI-Reflection Task Suite任务套件，分解反思行为为三类核心任务：动作验证（Action Verification）、动作回滚（Action Reversal）、基于错误的再尝试（Mistake-Informed Reattempt）[7][14] - 预训练模型在反思任务中表现显著提升，8B参数模型Action Verification准确率达87.56%，超越Gemini-2.5-Pro的88.22%[16][17] 2 离线监督微调阶段 - 设计自动化数据管道，通过目标扰动生成错误行为（修改原始任务目标）和行为插入模拟失误（向成功轨迹插入无效操作）构建带错轨迹[8][9] - 无需人工标注实现"反思注入"，使模型在ScreenSpotv2任务中第三次尝试准确率提升3.62个百分点[17][10] 3 在线训练阶段 - 搭建分布式安卓模拟环境，覆盖11个APP和215个任务模板，支持高并发交互[12] - 采用迭代式反思反馈调优算法，模型通过多轮训练逐步提升容错率，InternVL3-8B模型第三次尝试准确率较初始提升3.71个百分点[17][18] 性能表现 - 在相同8B参数规模下，引入反思机制的GUI-Pretrain-Ref模型较基线GUI-Pretrain模型在Action Reversal任务准确率提升53.1个百分点（93.81% vs 40.71%）[17] - 结合在线反思调优后，模型任务成功率从基线14.58%提升至34.72%，增幅达137%[19] - 在端到端模型对比中，GUI-Reflection-8B以34.5%成功率超越Aguvis-72B（26.1%）和OS-Gensis-8B（16.9%）[22] 行业意义 - 突破当前GUI智能体依赖完美离线演示数据的局限，首次实现持续自我优化的能力[1][20] - 验证小规模模型通过系统化反思机制设计可达到商用级性能，为开源生态提供新范式[16][19] - 建立多模态GUI智能体标准化评估体系，包含动作验证、回滚等量化指标[14][17]