在线强化学习

搜索文档
GUI智能体训练迎来新范式!半在线强化学习让7B模型媲美GPT-4o
量子位· 2025-09-23 19:01
UI-S1 团队 投稿 量子位 | 公众号 QbitAI 如何让AI更聪明地操作手机、电脑界面? 浙江大学与通义实验室Mobile-Agent团队在UI-R1的基础上,推出全新研究成果—— UI-S1 ,提出了一种名为 半在线强化学习(Semi- online Reinforcement Learning) 的创新训练范式。 该工作融合了离线训练的稳定性与在线学习的长程优化能力,在不依赖真实环境交互的前提下,显著提升了模型在动态多轮任务中的表现。 也就是说,这种方法用的还是 离线学习 的现成操作数据,但会模拟 在线学习 的过程。 下面来看看是怎么做到的。 用"离线"数据,模拟"在线"过程 核心问题:传统方法的局限性 现有的GUI Agent训练主要依赖两类强化学习范式: 离线强化学习(Offline RL) 利用预先收集的专家轨迹进行训练,具有高稳定性与低部署成本,但其本质是"行为克隆+单步模仿",缺乏对轨迹级奖励信号的学习能力, 难以应对需要长期规划的任务。在以下任务中:基于离线学习的模型表现出早停现象,面对长程任务缺乏有效的规划。 在线强化学习(Online RL) 通过与真实环境持续交互获取反馈,能够捕 ...
全球双榜SOTA!明略科技专有大模型 Mano开启GUI智能操作新时代
机器之心· 2025-09-21 13:26
机器之心原创 编辑:吴昕、冷猫 明略科技的 专有 GUI 大模型 Mano 在行业公认的 Mind2Web 和 OSWorld 两大挑战性基准测试中,均取得了创纪录的 SOTA 成绩。通过在线强化学习 和训练数据自动采集两大核心创新,Mano 为整个 GUI 智能体领域提供了一套可扩展、可持续进化的新范式。 40.1% 成功率 一次即刷新 GUI 智能体新高度 我们正在把越来越多的时间交给屏幕。有人算过,人一生中耗在手机上的时间接近 9 年;如果你的工作离不开电脑,这个数字只会更高。时间碎片化,注意力也 被点击、勾选、复制粘贴这些琐碎操作蚕食。 如果,这些操作都能交给 Agent 呢?点开网页、登录账号、抓取数据、填写表单、提交流程,全程无人值守,你还有理由再手动点鼠标吗? 这背后的市场热度,早已扑面而来。无论是刚落幕的 2025 外滩大会,还是财新亚洲愿景论坛,Agent 都是全场最高频的热词,不少观点认为: 真正有用的 Agen t,必须学会使用手机和电脑,像 人一样读懂并操 作 GUI。 毕竟,你不能靠一句简短的指令就把所有消费记录从大厂数据库里提取出来。 也不能仅凭单一指令完成登录支付宝、微信、淘宝下 ...
首次!流匹配模型引入GRPO,GenEval几近满分,组合生图能力远超GPT-4o
机器之心· 2025-05-13 15:08
核心观点 - 流匹配模型在复杂场景和文本渲染任务中存在困难,在线强化学习在图像生成领域应用仍处于初步阶段 [1] - Flow-GRPO 是首个将在线强化学习引入流匹配模型的工作,显著提升模型性能 [2] - Flow-GRPO 通过 ODE-SDE 等价转换和去噪步数减负两项关键策略提升训练效率 [6][8] - Flow-GRPO 在 GenEval 基准测试中准确率从 63% 提升到 95%,超越 GPT-4o [14] - Flow-GRPO 为流匹配模型在可控性、组合性和推理能力方面开辟了新范式 [23] 核心思路与框架概览 - ODE-SDE 等价转换:将确定性 ODE 转换为随机 SDE,为 RL 提供探索空间 [8][9] - 去噪步数减负:训练时减少生成步数(40 步减到 10 步),推理时保持完整步数,提升训练效率 [8][12] 核心实验效果 - 复杂组合生成能力大幅提升:GenEval 基准上 SD3.5-M 准确率从 63% 提升至 95% [14] - 文字渲染精准无误:视觉文本渲染准确率从 59% 提升至 92% [19] - 人类偏好对齐任务取得显著进步,图像质量和多样性未受影响 [21] 总结与展望 - Flow-GRPO 揭示了利用在线强化学习持续提升流匹配模型性能的可行路径 [23] - 为图像、视频、3D 等多模态生成任务提供了新范式 [23]