Workflow
浙大&港理工等提出InfiGUI-R1:利用强化学习,让GUI智能体学会规划任务、反思错误
机器之心·2025-05-02 12:39

当前,多模态大模型驱动的图形用户界面(GUI)智能体在自动化手机、电脑操作方面展现出巨大潜力。然而,一些现有智能体更类似于「反应式行动者」 (Reactive Actors),主要依赖隐式推理,面对需要复杂规划和错误恢复的任务时常常力不从心。 我们认为,要真正提升 GUI 智能体的能力,关键在于从「反应式」迈向「深思熟虑的推理者」(Deliberative Reasoners)。为此,浙江大学联合香港理 工大学等机构的研究者们提出了 InfiGUI-R1 ,一个基于其创新的 Actor2Reasoner 框架训练的 GUI 智能体,旨在让 AI 像人一样在行动前思考,行动后 反思。 论文标题:InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners 从「反应行动」到「深思熟虑」:GUI 智能体面临的挑战 想象一下,你让 AI Agent 帮你完成一个多步骤的手机操作,比如「预订明天下午去北京的高铁票」。一个简单的「反应行动」式 Agent 可能会按顺序点 击它认为相关的按钮,但一旦遇到预 ...