Workflow
GUI智能体训练
icon
搜索文档
GUI智能体训练迎来新范式!半在线强化学习让7B模型媲美GPT-4o
量子位· 2025-09-23 19:01
UI-S1 团队 投稿 量子位 | 公众号 QbitAI 如何让AI更聪明地操作手机、电脑界面? 浙江大学与通义实验室Mobile-Agent团队在UI-R1的基础上,推出全新研究成果—— UI-S1 ,提出了一种名为 半在线强化学习(Semi- online Reinforcement Learning) 的创新训练范式。 该工作融合了离线训练的稳定性与在线学习的长程优化能力,在不依赖真实环境交互的前提下,显著提升了模型在动态多轮任务中的表现。 也就是说,这种方法用的还是 离线学习 的现成操作数据,但会模拟 在线学习 的过程。 下面来看看是怎么做到的。 用"离线"数据,模拟"在线"过程 核心问题:传统方法的局限性 现有的GUI Agent训练主要依赖两类强化学习范式: 离线强化学习(Offline RL) 利用预先收集的专家轨迹进行训练,具有高稳定性与低部署成本,但其本质是"行为克隆+单步模仿",缺乏对轨迹级奖励信号的学习能力, 难以应对需要长期规划的任务。在以下任务中:基于离线学习的模型表现出早停现象,面对长程任务缺乏有效的规划。 在线强化学习(Online RL) 通过与真实环境持续交互获取反馈,能够捕 ...