vivo AI Lab提出自我进化的移动GUI智能体，UI-Genie无需人工标注实现性能持续提升

本文来自于香港中文大学 MMLab 和 vivo AI Lab，其中论文第一作者肖涵，主要研究方向为多模态大模型和智能体学习，合作作者王国志，研究方向为多模态大模型和 Agent 强化学习。项目 leader 任帅，研究方向为多模态大模型、Agent 及具身智能，指导教师是香港中文大学 MMLab 的李鸿升教授。近年来，多模态大模型（MLLM）在理解和生成任务上取得了巨大突破。学术界和工业界不再仅仅满足于让模型进行聊天和 AIGC，而是致力于将其打造为能够自主规划、执行复杂任务的智能体（Agent）。其中，移动 GUI（图形用户界面）智能体 —— 即能够在智能手机上理解人类指令、自主操作 APP 完成复杂任务的 AI 系统，正在成为 AI 领域的新热点。然而，如何让一个多模态大模型在手机界面上学会像人类一样 "看懂屏幕、规划步骤、执行任务"，一直是个棘手的难题。一个根本的瓶颈在于数据：这些智能体严重依赖大规模、高质量的专家演示轨迹（即 "一步一步怎么点"）进行微调，而这类数据需要昂贵的人工标注成本，极大地限制了智能体的泛化能力和鲁棒性。来自香港中文大学 MMLab、vivo AI Lab、 ...