反思机制

搜索文档
如何教AI学会反思?
虎嗅· 2025-07-09 15:57
论文背景 - 论文标题为《反思,重试,奖励:通过强化学习实现自我改进的大语言模型》,由人工智能创业公司Writer的研究团队撰写,联合作者共8人[5][3] - 论文内容简洁明了,仅16页,不同于传统学术论文的复杂风格[4] - 该论文在Hugging Face平台的"每日论文"栏目中排名6月第三位[1][3] 核心研究方法 - 提出三步骤方法让AI从错误中学习:反思、重试、奖励[5][11][12][13] - 与传统方法不同,不依赖更多数据或重新训练,而是教会AI自我改进的能力[8][9][10] - 奖励机制针对AI的反思过程而非最终答案,强化有效的反思方式[13][14] - 该方法使AI获得通用的自我纠错和提升能力,而非死记硬背[15] 实验验证 - 在函数调用任务中,15亿参数模型准确率从32.6%提升至52.9%[20][21] - 在数学方程求解任务中,同一模型准确率从6%提升至45%[23][24][25] - 经过训练的小模型表现超过未训练的大模型:70亿参数模型优于720亿参数模型[27][26] - 证明优化训练方式可使小模型具备强大能力,节省成本[29] 实际应用 - 用户可通过引导AI反思来提升回答质量,如指出错误并要求分析原因[31][32] - 在商业分析等场景中,可提供明确反思方向如"忽略市场风险因素"[33] - 多模型比较方法:让一个AI评估其他AI的回答,再改进自身回答[35][36][37][38] - 通过持续追问和挑战可激发AI产生新思路和更优解决方案[38][39]
AI操作有了“紧急刹车”!通义&自动化所AI决策诊断模型,GUI智能体纠错正确率SOTA
量子位· 2025-06-17 15:41
核心观点 - 阿里通义实验室联合中科院自动化所推出GUI-Critic-R1模型,旨在通过操作前反思机制提升GUI智能体的决策准确性,避免错误操作和不可逆损失[1][8][16] - 该模型在三个典型错误案例中成功纠正智能体行为:文件检索误判(Joplin应用)、冗余操作(费用删除流程)和重复指令(视频拍摄)[2][4][6] - 动态环境下单步错误会产生连锁反应,因此需要比离线任务更高的单步准确率(理论提升14-52%)[8][35][36] 技术架构 数据采集 - 构建6k条链式思维注释的GUI-Critic-Train数据集,采用推理引导策略确保质量[16][22] - 数据生成分两阶段:先采集GUI操作原始数据(含正确决策),再通过开源MLLM生成错误样本并由GPT-4o清洗[23] - 采用渐进式CoT范式生成反思数据,包含思考过程、评分和建议三要素[24] 模型训练 - 强化微调冷启动阶段从11K条人类注释中学习基础GUI操作知识[26][27] - 创新性提出建议感知的组内相对策略优化(S-GRPO),通过格式正确性(λ1=0.3)和建议反馈(λ2=0.7)的加权函数提升泛化能力[28][30] - 训练集包含移动端(85%)和网页端(15%)多场景数据,其中含CoT注释的数据占63%[31][33] 性能验证 静态测试 - 在GUI-Critic-Test三大场景超越主流模型:移动指令泛化(GUI-I)准确率69.2%(较Qwen2.5-VL-7B高14.32%)、移动场景泛化(GUI-S)58.77%、网页泛化(GUI-W)63.08%[35][36] - 建议准确率显著领先:GUI-I场景达52.43%(Claude-3.5为40.71%),跨应用程序场景保持47.37%准确率[36] 动态测试 - 在AndroidWorld基准测试中取得最高任务成功率,且平均操作步骤减少23%[38] - 网页端操作逻辑迁移验证成功,尽管存在滑动方向等交互差异,仍保持60.05%的跨平台准确率[34][36] 应用价值 - 可集成至现有MLLM系统(如GPT-4o)作为安全层,防止38-46%的典型GUI操作错误[1][36] - 支持移动端(Joplin/费用管理)和网页端(视频拍摄)的多模态任务,错误检测响应时间缩短至毫秒级[2][4][6][34]
端到端GUI智能体首次实现“犯错-反思-修正”闭环,模拟人类认知全过程
量子位· 2025-06-11 16:07
端到端多模态GUI智能体有了"自我反思"能力!南洋理工大学MMLab团队提出框架GUI-Reflection。 随着多模态大模型的发展, 端到端GUI智能体 在手机、电脑等设备上的自动化任务中展示出巨大潜力。它们能够看懂设备屏幕,模拟人类去 点击按钮、输入文本,从而完成复杂的任务。 然而,当前端到端GUI多智能体的训练范式仍存在明显的瓶颈:当前模型往往使用几乎完美的离线演示轨迹进行训练,使得模型缺乏反思和改 正自身错误的能力,并进一步限制了通过在线强化学习激发和提升能力的可能。 GUI-Reflection 的核心思想是在智能体的各个训练阶段引入 "反思与纠错"机制 ,这一机制贯穿 预训练、监督微调和在线训练 全过程,模 拟了人类 "犯错→反思→重试" 的认知过程。 1. GUI预训练阶段: GUI-Reflection 团队 投稿 量子位 | 公众号 QbitAI 提出GUI-Reflection Task Suite任务套件, 将反思纠错能力进一步分解,让模型在预训练阶段框架让模型初步接触反思类任务,为后续打 下基础。 2. 离线监督微调阶段: 构建自动化数据管道,从已有离线无错轨迹中构建带有反思和纠错的 ...