Workflow
GUI自动化
icon
搜索文档
ICLR 2026 | LongHorizonUI:让 GUI 智能体不再"半途而废"——面向长链路任务的统一鲁棒自动化框架
机器之心· 2026-03-12 16:19
研究背景与问题 - 在移动端和桌面端的日常使用中,许多复杂任务需要十几步甚至几十步的连续交互,而基于多模态大语言模型的GUI智能体在自动化操作时,当任务步数超过10–15步,其成功率会出现断崖式下跌[2] - 研究团队在AndroidControl基准上的评估显示,当操作序列在5步以内时,各方法的平均成功率超过90%;一旦序列长度超过10步,成功率便跌破75%;到了15步以上,平均仅剩约60%[5] - 这种非线性的性能衰减说明,现有方法在长链路中无法有效捕捉跨步状态依赖,感知漂移、定位偏差和决策误差逐步叠加,最终导致整个流程崩溃[5] 解决方案:LongHorizonUI框架 - 为解决长链路任务自动化问题,来自中国科学院大学、佐治亚理工学院、南开大学与腾讯互娱Turing Lab的研究人员共同提出了LongHorizonUI,一个面向GUI智能体长链路任务的统一鲁棒自动化框架[2] - 该框架的核心设计理念是将“语义决策”到“物理执行”之间的不确定性做分层处理,由感知、决策、执行三大模块组成完整闭环[9] - 框架提出了增强感知、深度反思决策与补偿式执行三大核心模块,以解决长步骤操作中的误差累积问题[2][19] 评测基准:LongGUIBench - 为在长链路场景下开展系统性评测,研究团队构建了新的基准LongGUIBench,所有任务的操作步数均不低于15步,平均为22.1步[7] - 数据集包含两大类场景:通用应用场景涵盖了Gmail、YouTube等15款主流应用,共147条端到端任务链,平均步数19.5;游戏场景由专业测试人员在13款热门游戏APP中录制,共207条高复杂度链路,平均步数23.7,最长可达37步[7] - 每条任务同时提供High-Level指令描述宏观目标和Low-Level指令分解为原子操作序列,所有操作步骤均配有精细的UI语义标注,全部数据合计4508张截图[7] 核心方法详解 - **多模态增强感知模块**:并行运行控件检测器与OCR识别模块,为每个UI元素分配唯一的空间索引ID,并引入基于IoU的语义绑定机制解决复合控件歧义问题,同时设置模板匹配修复机制确保关键元素不漏检[12] - **深度反思决策模块**:通过严格定义的JSON Schema输出格式,强制模型进行三级闭环推理,包括历史验证、目标检查和动作可解释推理,并在执行前校验目标元素是否存在及动作语义是否匹配[12] - **补偿式执行器**:负责将动作指令映射到物理坐标,按优先级依次尝试三种定位策略,并在所有候选方案均失败时触发局部重规划或回滚到上一个成功快照[13] 实验结果与性能 - 在LongGUIBench上,LongHorizonUI在通用场景中,低级指令的步骤成功率达到85.3%,高级指令达到52.3%,分别较UI-TARS-1.5提升了6.1%和30.5%;在游戏场景中,低级指令成功率83.9%,高级指令52.1%,整体平均77.3%[15] - 在ScreenSpot跨平台UI元素定位基准上,LongHorizonUI以90.4%的平均准确率超越此前所有开源方法,在Mobile、Desktop、Web三个平台上均表现稳健[15] - 消融实验证实了各模块的必要性:移除控件检测器使步骤完成率下降6.1%,移除OCR模块导致2.3%的下降,仅使用索引定位的任务完成率为81.4%,叠加补偿策略后逐步提升至85.3%[15] - 在OSWorld的50步长链路设置中,LongHorizonUI达到29.4%的成功率,较UI-TARS-72B的24.6%提升了4.8个百分点[16] 研究意义与影响 - LongHorizonUI为长链路GUI自动化任务提供了一套完整的解决方案,通过索引化感知、结构化反思决策和多级补偿执行的协同设计,有效缓解了长步骤操作中的误差累积问题[19] - 该成果已被ICLR 2026接收,构建的LongGUIBench基准也为该领域后续研究提供了标准化的评测平台[2][19] - 研究团队来自学术界与产业界,包括中国科学院大学、佐治亚理工学院、南开大学与腾讯互娱Turing Lab,体现了产学研结合的特点[2][20]