vivo AI Lab提出自我进化的移动GUI智能体,UI-Genie无需人工标注实现性能持续提升
机器之心·2025-11-07 15:17
本文来自于香港中文大学 MMLab 和 vivo AI Lab,其中论文第一作者肖涵,主要研究方向为多模态大模型和智能体学习,合作作者王国志,研究方向为多模态大 模型和 Agent 强化学习。项目 leader 任帅,研究方向为多模态大模型、Agent 及具身智能,指导教师是香港中文大学 MMLab 的李鸿升教授。 近年来,多模态大模型(MLLM)在理解和生成任务上取得了巨大突破。学术界和工业界不再仅仅满足于让模型进行聊天和 AIGC,而是致力于将其打造为 能够自主规划、执行复杂任务的 智能体 (Agent)。其中,移动 GUI(图形用户界面)智能体 —— 即能够在智能手机上理解人类指令、自主操作 APP 完 成复杂任务的 AI 系统,正在成为 AI 领域的新热点。 然而,如何让一个多模态大模型在手机界面上学会像人类一样 "看懂屏幕、规划步骤、执行任务",一直是个棘手的难题。一个根本的瓶颈在于数据:这些 智能体严重依赖大规模、高质量的专家演示轨迹(即 "一步一步怎么点")进行微调,而这类数据需要昂贵的人工标注成本,极大地限制了智能体的泛化能 力和鲁棒性。 来自香港中文大学 MMLab、vivo AI Lab、 ...