Workflow
AI Operating System
icon
搜索文档
手机AGI助手还有多远?移动智能体复合长程任务测试基准与调度系统发布
机器之心· 2025-07-26 17:32
本文第一作者郭源是上海交通大学计算机系三年级本科生,研究方向为自主智能体和智能体安全。该工作由上海交通大学与澜舟科技共同完成。 针对这一缺口,研究人员提出: 从原子任务自动化 到系统级端侧智能 多模态大模型 (MLLM) 驱动的 OS 智能体在单屏动作落实(如 ScreenSpot)、短链操作任务(如 AndroidControl)上展现出突出的表现,标志着端侧任务自动化的 初步成熟。 但是,真实世界的用户需求常常包含复合长程任务,例如 "比较价格并在便宜的平台下单" 任务,需要在多个应用程序中操作,收集和比较异源信息,并据此确定 后续的操作步骤;"查看今日热点新闻,概括并记录" 的任务,需要在多个网页之间导航,将设备操作与文本概括的通用推理能力交错融合,并完成适时的信息传 递。从简单有序任务到复杂有序和复杂无序任务的过渡是从单智能体基座增强到 AI 操作系统的必经之路。当前主流的环境感知、动作落实和短序列轨迹微调等训 练方式显著地提高了前述原子任务上的表现,但是复合长程任务带来了长链条进度管理、信息收集和传递、操作与通用思考的结合等全新的挑战。 论文标题: Atomic-to-Compositional G ...